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Operating System Concepts Ninth Edition 


本 书 是 操作 系统 领域 的 “圣经 ”， 从 第 1 版 至 今 全 程 记 录 了 操作 系统 的 发 展 历史 ， 被 国内 外 众多 高 校 选 作 教 
材 。 第 9 版 延续 了 之 前 版 本 的 优点 并 进行 了 全 面 更 新 : 理论 讲解 采用 简洁 、 直 观 的 方式 来 呈现 重要 的 研究 结果 ， 不 
展开 复杂 的 形式 化 证 明 ; RUAA Linux, Windows, Mac OS X、Android、iOS 等 各 大 主流 系统 ;代码 部 分 要 
求 读者 对 C 或 Java 语 言 有 一 定 的 了 解 ; 教 辅 资源 同步 升级 ， 包 括 习 题 、 编 程 题 、 推 荐 读物 、 源 代码 和 PPT 等 ( 请 访 
问 www:hzbook.com 查 看 和 下 载 ) 。 


重点 更 新 


e 新 增 关 于 多 核 系 统 和 移动 计算 的 内 容 。 

e 针对 移动 设备 的 大 量 普及 ， 新 增 了 相关 的 操作 系统 、 用 户 界 面 和 内 存 管理 等 内 容 。 

e 针对 大 容量 存储 的 发 展 ， 新 增 了 固态 硬盘 等 内 容 。 

e 更 新 了 进程 、 线 程 、 同 步 、 内 存 管理 、 文 件 系统 、WVO 系 统 、Linux 系 统 等 方面 的 新 技术 。 
e 在 编程 环境 方面 ， 同 时 考虑 POSIX、Java 和 Windows 系 统 。 

e 更 新 了 大 量 习 题 和 编程 项 目 。 
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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 
就 将 工作 重点 放 在 了 洲 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson， 
McGraw-Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, 
Brian W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. 
Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 
两 百 个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 
的 图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 
深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 一 个 新 的 阶段 ,我们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ,我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 

电子 邮件 : hzjsi@hzbook.com 

联系 电话 : ( 010 ) 88379604 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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计算 机 科学 与 技术 的 发 展 如 此 迅猛 ， 人 工 智 能 、 深 度 学 习 、 大 数据 、 云 计算 、 物 联网 
等 让 人 人 应接不暇 。 但 到 目前 为 止 ， 无 论 志 界 如 何 变 化 ， 操 作 系 统一 直 是 计算 机 的 重要 基础 ， 
“操作 系统 ”课程 也 一 直 是 计算 机 专业 的 核心 必修 课程 之 一 。 当 然 ， 操 作 系 统 本 身 也 在 不 断 
发 展 ， 所 以 此 书 从 第 1 版 到 现在 已 经 发 展 到 了 第 9 版 。 

为 什么 要 再 三 翻译 此 书 呢 ? 第 一 ， 如 之 前 版 本 译 者 序 中 所 言 ， 这 是 一 本 操作 系统 的 “ 圣 
经 ”; 第 二 ， 操 作 系 统 对 计算 机 专业 的 学 生 实在 是 非常 基础 和 重要 ; 第 三 ， 我们 长 期 从 事 计 
算 机 专业 教学 的 使 命 使 然 ， 绵 薄 之 力也 当 奉献 。 

较 之 前 的 版 本 ， 此 版 本 的 特点 如 下 : 

e 新 增 了 多 核 系统 和 移动 计算 的 内 容 。 

o 每 一 章 都 融和 人 了 操作 系统 的 新 发 展 ， 并 删除 了 一 些 过 时 的 内 容 : 

a 在 计算 环境 中 考虑 了 移动 计算 、 云 计算 等 时 下 热点 的 内 容 。 针 对 移动 设备 大 量 普 
及 应 用 的 环境 ， 增 加 了 相关 的 操作 系统 、 用 户 界面 、 内 存 管理 等 内 容 。 针 对 大 容 
量 存储 的 发 展 ， 新 增 了 固态 硬盘 等 内 容 。 

a 在 进程 、 线 程 、 同 步 、 内 存 管 理 、 文 件 系 统 及 实现 、IO 系统 、Linux 系统 等 方面 ， 
根据 技术 发 展 做 了 更 新 。 

o 新 增 了 Windows 7 的 内 容 。 

o 在 编程 环境 方面 ， 同 时 考虑 POSIX, Java, Windows 系统 。 

e 更 新 了 习题 、 编 程 项 目 等 ， 以 方便 学 生 巩 固 和 测试 对 新 内 容 的 学 习 。 

本 书 原作 者 Abraham Silberschatz、Peter B. Galvin 和 Greg Gagne 都 是 操作 系统 界 的 大 
师 级 人 物 。《 操 作 系 统 概念 》 系 列 版 本 一 向 是 操作 系统 经 典 图 书 中 的 经 典 ， 从 第 1 版 至 今 ， 
可 以 说 完美 记录 了 操作 系统 的 发 展 历史 。 这 一 版 本 延续 了 之 前 版 本 的 优点 ， 并 加 入 了 操作 系 
统 的 新 发 展 动向 ， 相 信 读 者 能 从 中 受益 。 

本 书 既 适合 作为 计算 机 专业 大 三 、 大 四 本 科学 生 的 教材 ， 也 适用 于 相关 专业 人 员 完 整理 
解 计算 机 操作 系统 原理 。 建 议 读者 根据 自身 情况 阅读 全 书 或 部 分 章节 。 

科技 图 书 的 翻译 一 般 都 力求 忠于 原著 。 作 为 长 期 从 事 计算 机 专业 教学 的 高 校 教 师 ， 总 是 
希望 作品 能 少 出 错 ， 并 能 给 读者 以 最 大 的 帮助 。 但 中 文 实在 博大 精深 , 译 者 水 平 有 限 ， 且 时 
间 仓 促 ， 翻 译 过 程 难 免 出 错 ， 欢 迎 读者 批评 指正 ， 在 此 先 表 感谢 ! 

本 书 由 郑 扣 根 (浙江 大 学 )、 唐 杰 (南京 大 学 ) 和 李 善 平 (浙江 大 学 ) 翻译 。 翻 译 过 程 中 
得 到 家 人 的 理解 与 支持 ， 在 此 表示 深 深 的 谢意 。 
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操作 系统 是 任何 计算 机 系统 的 重要 组 成 部 分 。 同 样 ， 操 作 系 统 课程 也 是 计算 机 科学 教育 
的 基本 组 成 部 分 。 随 着 计算 机 逐渐 渗透 到 日 常生 活 的 每 个 方面 ， 从 汽车 的 嵌入 设备 到 政府 和 
跨国 公司 的 先进 规划 工具 ， 这 个 领域 发 展 迅猛 。 然 而 ， 其 中 的 基本 概念 仍然 比较 清晰 ， 这 些 
概念 就 是 本 书 讨论 的 基础 。 

本 书 是 面向 操作 系统 导论 课程 的 教科 书 ， 适 用 于 大 三 、 大 四 学 生 和 一 年 级 研究 生 ， 同 时 
也 可 供 工程 技术 人 员 人 参考。 本 书 清晰 地 描述 了 操作 系统 的 概念 。 作 为 先决 条 件 ， 我 们 假设 读 
者 熟悉 基本 数据 结构 、 计 算 机 组 成 和 一 种 高 级 语言 (如 Ca Java), KES 1 章 包括 了 学 习 
操作 系统 所 需 的 硬件 知识 ， 还 包括 大 多 数 操作 系统 普遍 使 用 的 基础 数据 结构 。 代 码 示例 主要 
使 用 C 和 Java， 不 过 ， 即 使 读者 不 具有 这 些 语言 的 全 部 知识 也 能 理解 这 些 算 法 。 

本 书 不 仅 直 观 描述 了 概念 ， 而 且 包 括 重要 的 理论 结果 ， 但 是 省 略 了 大 部 分 的 形式 化 证 
明 。 每 章 结尾 的 推荐 读物 给 出 了 相关 研究 论文 ， 其 中 有 的 首次 提出 或 证 明了 这 些 理论 结果 ， 
有 的 提供 深入 阅读 的 最 新 材料 。 本 书 通过 图 形 和 举例 来 代替 证 明 ， 以 说 明 为 什么 有 关 结 果 是 
真实 有 效 的 。 

本 书 描述 的 基本 概念 和 算法 通常 用 于 商用 和 开源 的 操作 系统 。 我 们 的 目标 是 ， 按 照 通用 
的 (而 非特 定 的 ) 操作 系统 来 描述 这 些 概念 和 算法 。 另 外 ， 我 们 提供 了 最 受 欢 迎 和 最 具 创新 
的 操作 系统 的 大 量 例 子 ， 包括 Linux, Microsoft Windows, Apple Mac OS X 和 Solaris。 我 
们 还 给 出 了 两 个 主要 移动 操作 系统 (Android 和 iOS) 的 示例 。 

本 书 的 编写 综合 了 我 们 从 事 操作 系统 教学 的 多 年 经 验 以 及 IEEE 计算 机 协会 和 ACM H 
同 出 版 的 课程 指南 。 另 外 ， 还 考虑 了 多 位 审 稿 人 员 提 供 的 反馈 意见 ， 以 及 以 前 版 本 读者 和 学 
生 的 许多 意见 和 建议 。 


本 书 内 容 


本 书包 括 六 大 部 分 : 

。 概论 。 第 1 章 和 第 2 章 解 释 了 操作 系统 是 什么 ， 它 们 能 做 什么 ， 以 及 它们 是 如 何 设 

计 与 构造 的 。 这 一 部 分 讨论 了 操作 系统 的 常见 功能 是 什么 ， 以 及 操作 系统 能 为 用 户 

提供 什么 。 我 们 不 仅 讨论 PC 和 服务 器 的 传统 操作 系统 ， 而 且 讨论 移动 设备 的 操作 系 

统 。 描 述 主要 以 启发 和 解释 为 主 ， 避 免 讨 论 内 部 实现 细节 。 因 此 ， 这 部 分 适合 低 年 

级 学 生 或 类 似 读者 ， 以 便 了 解 操作 系统 是 什么 而 无 需 关 注 内 部 算法 细节 。 

进程 管理 。 第 3 ~ 7 章 描 述 了 进程 概念 和 并 发 ， 这 是 现代 操作 系统 的 核心 。 进 程 是 

系统 内 的 工作 单元 。 这 种 系统 包括 一 组 并 发 执行 进程 ， 其 中 一 些 是 操作 系统 进程 ( 执 

行 系统 代码 的 进程 )， 其 余 的 是 用 户 进程 (执行 用 户 代码 的 进程 )。 这 一 部 分 包括 进程 

调度 、 进 程 间 通信 、 进 程 同步 及 死 锁 处 理 等 的 方法 ， 还 包括 线程 分 析 以 及 多 核 系统 

和 并 行 编程 的 有 关 分 析 。 

。 内 存 管理 。 第 8 章 和 第 9 章 是 关于 进程 执行 期 间 的 内 存 管理 的 。 为 了 改进 CPU 的 使 
用 率 及 其 对 用 户 的 响应 速度 ， 计 算 机 必须 在 内 存 中 同时 保存 多 个 进程 。 内 存 管 理 具 
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有 很 多 不 同方 案 ， 反 映 了 内 存 管理 的 各 种 方法 ; 而 特定 算法 的 有 效 性 取决 于 应 用 情形 。 
© 存储 管理 。 第 10 ~ 13 章 描述 了 现代 计算 机 系统 如 何 处 理 文件 系统 、 大 容量 存储 和 
IO。 文 件 系 统 提供 了 一 种 机 制 ， 以 对 数据 和 程序 进行 在 线 存储 与 访问 。 这 一 部 分 描 
述 了 存储 管理 的 经 典 内 部 算法 和 结构 ， 并 且 深 入 讨论 了 这 些 算法 ， 比 如 它们 的 特性 、 
优点 和 缺点 。 由 于 连 到 计算 机 的 IO 设备 种 类 如 此 之 多 ， 操 作 系统 需要 为 应 用 程序 
提供 大 量 的 功能 ， 以 控制 这 些 设备 的 方方面面 。 这 一 部 分 深入 讨论 了 IO 系统 ， 包 
括 IO 系统 设计 、 接 口 及 系统 内 部 的 结构 和 功能 。 在 许多 方面 ，IO 设备 也 是 计算 机 中 
最 慢 的 主要 组 件 。 因 为 设备 通常 是 性 能 瓶颈 ， 所 以 这 一 部 分 也 讨论 了 IO 设备 的 性 能 
问题 。 
保护 与 安全 。 第 14 章 和 第 15 章 讨论 了 计算 机 系统 保护 与 安全 的 必需 机 制 。 操 作 系 
统 的 进程 活动 必须 互相 保护 ， 为 此 ， 我 们 必须 确保 只 有 获得 操作 系统 适当 授权 的 进 
程 才 能 使 用 系统 的 文件 、 内 存 、CPU 和 其 他 资源 。 保 护 是 一 种 机 制 ， 用 于 控制 程序 、 
进程 和 用 户 对 计算 机 系统 资源 的 访问 ， 这 种 机 制 必须 提供 指定 控制 和 实施 控制 的 手 
段 。 安 全 机 制 保护 系统 存储 的 信息 (数据 和 代码 ) 的 完整 性 和 计算 机 的 物理 资源 ， 从 
而 避免 未 经 授权 的 访问 、 恶 意 破坏 或 修改 以 及 意外 引入 的 不 一 致 。 
案例 研究 。 本 书 的 第 16 章 和 第 17 章 以 及 附录 A 和 附录 B CL www.wiley.com/ 
college/silberschatz)， 详 细 研 究 了 操作 系统 的 实际 案例 ， 包 括 Linux、Windows 7、 
FreeBSD 和 Mach, BSAA AT BE tA Linux 和 Windows 7 的 讨论 ， 但 是 案例 研 
究 提供 了 更 多 细节 。 比 较 这 两 个 非常 不 同 的 系统 的 设计 是 特别 有 意义 的 。 最 后 的 第 
18 章 简要 地 描述 了 其 他 一 些 有 影响 的 操作 系统 。 


第 9 版 


在 编写 本 书 第 9 版 时 ， 我们 考虑 了 影响 操作 系统 的 两 个 重要 领域 的 新 发 展 : 

© 多 核 系统 

o 移动 计算 

为 了 强调 这 两 个 重要 领域 的 新 发 展 ， 我 们 在 新 版 本 中 融 人 了 相关 讨论 。 另 外 ， 我 们 几乎 
重 写 了 每 章 内 容 以 反映 最 新 变化 ， 并 且 删 除 不 再 有 趣 或 有 关 的 材料 。 

我 们 也 做 了 大 量 调整 ， 例 如 删除 了 实时 系统 一 章 ， 但 在 其 他 章节 中 整合 了 对 这 些 系 统 的 
适当 讨论 。 大 多 数 调整 都 是 基于 我 们 讲授 操作 系统 课程 的 经 验 。 

下 面 简要 描述 各 章 的 主要 修改 ; 

e 第 1 章 ， 导 论 ， 包 括 关 于 多 处 理 器 和 多 核 系统 以 及 内 核 数据 结构 的 新 内 容 。 此 外 ， 
计算 环境 的 讨论 现在 包括 移动 系统 和 云 计算 。 我 们 还 增加 了 对 实时 系统 的 概述 。 
第 2 章 ， 操 作 系统 结构 ， 增 加 了 移动 设备 (包括 i0S 和 Android) 用 户 界面 的 讨论 ， 
并 扩展 了 Mac OS X (一 种 混合 系统 ) 的 讨论 。 
第 3 章 ， 进 程 ， 现 在 包括 移动 操作 系统 的 多 任务 讨论 、Google Chrome 浏览 器 的 多 进 
程 模型 支持 以 及 UNIX 的 僵尸 和 孤儿 进程 。 
第 4 章 ， 多 线程 编程 ， 扩 展 了 并 行 性 和 阿 姆 达 尔 定 律 的 相关 内 容 ， 也 提供 了 关于 隐 
式 线程 的 小 节 ， 包 括 OpenMP 和 Apple 的 Grand Central Dispatch 。 
第 5 章 ， 进 程 调度 ， 增 加 了 Linux CFS 调度 器 和 Windows 用 户 模 式 调度 ， 还 整合 了 
实时 调度 算法 的 讨论 。 
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第 6 章 ， 同 步 ， 增 加 了 互 斥 锁 、OpenMP 以 及 函数 式 语言 的 同步 讨论 。 

第 7 章 ， 死 锁 ， 没 有 重大 变化 。 

第 8 章 ， 内 存 管理 策略 ， 增 加 了 移动 系统 以 及 Intel 32 位 和 64 位 架构 的 内 存 交 换 的 
讨论 ， 还 增加 新 的 一 节 讨 论 ARM 架构 。 

第 9 章 ， 虚 拟 内 存 管 理 ， 更 新 了 内 核 内 存 管理 ， 以 包括 Linux SLUB 和 SLOB 内 存 分 
配器 。 

第 10 章 ， 文 件 系 统 ， 根 据 当前 技术 发 展 进行 了 更 新 。 

第 11 章 ， 文 件 系 统 实现 ， 根 据 当前 技术 发 展 进行 了 更 新 。 

第 12 章 ， 大 容量 存储 结构 ， 增 加 了 固态 磁盘 的 讨论 。 

第 13 章 ,I/O 系统 ， 更 新 了 技术 与 性 能 参数 ， 扩 展 了 同步 /异步 和 阻塞 / 非 阻 塞 
Vo 的 讨论 ， 并 增加 了 向 量 IO 的 内 容 。 

第 14 章 ， 系 统 保护 ， 没 有 重大 变化 。 

第 15 章 ， 系 统 安全 ， 采 用 现代 符号 修改 了 密码 学 的 相关 内 容 ， 并 改进 了 对 各 种 加 密 
方法 及 其 用 途 的 描述 ， 还 增加 了 Windows 7 的 安全 讨论 。 

第 16 章 ，Linux 系统 ， 增 加 了 Linux 3.2 内 核 的 讨论 。 

第 17 章 ，Windows 7， 新 的 一 章 ， 专 门 研究 Windows 7。 

第 18 章 ， 有 影响 的 操作 系统 ， 没 有 重大 变化 。 


编程 环境 

本 书 使 用 许多 操作 系统 的 实际 示例 来 说 明 操 作 系 统 的 基本 概念 。 虽 然 主 要 关注 Linux 和 
Microsoft Windows， 但 是 我 们 也 参考 各 种 版 本 的 UNIX (包括 Solaris, BSD 和 Mac OS X)。 

本 书 还 提供 了 用 C 和 Java 编写 的 许多 程序 示例 。 这 些 程序 可 运行 于 如 下 编程 环境 : 


POSIX。POSIX ( Portable Operating System Interface， 可 移植 操作 系统 接口 ) 为 一 套 
标准 ， 主 要 用 于 基于 UNIX 的 操作 系统 。 虽 然 Windows 系统 也 可 以 运行 一 些 POSIX 
程序 ， 但 是 我 们 的 POSIX 讨论 主要 关注 UNIX 和 Linux 系统 。POSIX 兼容 系统 必 
须 实现 POSIX 核心 标准 (POSIX.1 )，Linux Solaris 和 Mac OS X #842 POSIX 兼容 
系统 的 例子 。POSIX 还 定义 了 多 个 扩展 标准 ， 包 括 实时 扩展 (POSIX1.b) 和 线程 库 
扩展 (POSIX1.c， 常 称 为 Pthreads)。 我 们 提供 了 多 个 用 C 编写 的 程序 示例 ， 以 说 明 
POSIX 基本 API、Pthreads 和 实时 编程 扩展 。 这 些 程序 示例 采用 gcc 4.0 编译 器 ,在 
Linux 2.6 和 Linux 3.2 系统 、Mac OS X 10.7 和 Solaris 10 上 进行 了 测试 。 

Java. Java 是 一 种 应 用 广泛 的 编程 语言 ， 具 有 丰富 的 API 以 及 对 线程 创建 与 管理 的 
内 置 语 言 支持 。Java 程序 可 运行 在 支持 JVM (Java Virtual Machine, Java 虚拟 机 ) 的 
任何 操作 系统 上 。 我 们 采用 Java 程序 来 说 明 各 种 操作 系统 和 网 络 概念 ， 并 采用 Java 
1.6 JVM 来 测试 。 

Windows 系统 。Windows 系统 的 主要 编程 环境 是 Windows API， 它 提供 了 一 整套 函 
数 来 管理 进程 、 线 程 、 内 存 和 外 设 。 我 们 提供 多 个 C 程序 来 说 明 如 何 使 用 这 种 API 
这 些 程序 在 Windows XP 和 Windows 7 上 进行 了 测试 。 


我 们 选择 了 这 三 个 编程 环境 ， 因 为 我 们 相信 它们 最 能 代表 两 个 受 欢迎 的 操作 系统 模型 ， 
EI Windows 和 UNIX/Linux， 以 及 应 用 广泛 的 Java 环境 。 大 多 数 程序 示例 都 是 用 C 编写 的 ， 
希望 读者 能 够 熟悉 C 语言 。 熟悉 C 语言 和 Java 语言 的 读者 ， 应 该 很 容易 理解 本 书 的 大 多 数 
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程序 。 

在 有 些 情况 下 ， 如 线程 创建 ， 我 们 使 用 所 有 三 个 编程 环境 来 说 明 特 定 概念 ， 以 便 读 者 在 
处 理 相 同 任务 时 可 以 比较 三 种 不 同 的 库 。 在 其 他 情况 下 ， 我 们 可 能 只 使 用 一 种 API 来 演示 
概念 。 例 如 ， 我 们 只 使 用 POSIX API 来 说 明 共 享 内 存 ， 使 用 Java API 来 解释 TCP/IP 的 套 接 
字 编 程 。 


Linux 虚拟 机 


为 了 帮助 学 生 更 好 地 学 习 Linux 系统 ， 我 们 提供 了 Linux 虚拟 机 及 Linux 源 代码 ， 可 
从 本 书 支持 网 站 ( www.wiley.com/college/silberschatz) 下 载 。 该 虚拟 机 还 包括 带 有 编译 器 和 
编辑 器 的 gcc 开发 环境 。 本 书 的 大 部 分 编程 作业 可 以 在 此 虚拟 机 上 完成 ， 但 是 需要 Java 或 
Windows API 的 作业 除外 。 

我 们 还 提供 了 三 个 编程 项 目 ， 以 便 通过 内 核 模块 修改 Linux AK: 

© 添加 基本 内 核 模 块 到 Linux NK. 

e 添加 使 用 各 种 内 核 数 据 结 构 的 内 核 模块 。 

e 添加 迭代 Linux 系统 任务 的 内 核 模块 。 

我 们 打算 不 断 在 支持 网 站 上 补充 额外 的 内 核 模块 作业 。 


支持 网 站 


本 书 支 持 网 站 www.wiley.com/college/silberschatz 包括 以 下 资源 : 
e Linux 虚拟 机 

e C 与 Java 源 代码 

© 教学 大 纲 样 例 

® PPT 

e 插图 集 

e FreeBSD 和 Mach 的 案例 研究 

e 学 生 学 习 指 南 


教师 注意 事项 ” 

在 本 书 网 站 上 ， 我 们 提供 多 个 教学 大 纲 样 例 ， 用 于 采用 本 书 的 各 种 初级 与 高 级 课程 。 作 
为 一 般 规 律 ， 我 们 鼓励 教师 按 章节 顺序 进行 教学 ， 因 为 这 会 提供 最 透彻 的 操作 系统 研究 路 
线 。 不 过 ， 通 过 大 纲 样 例 ， 教 师 可 以 选择 不 同 的 章节 顺序 (或 章节 内 容 )。 

本 版 添加 了 60 多 道 新 的 习题 以 及 20 多 个 新 的 编程 题 和 编程 项 目 。 大 多 数 新 的 编程 作业 
涉及 进程 、 线 程 、 进 程 同 步 和 内 存 管理 。 有 些 涉及 添加 内 核 模 块 到 Linux 系统 ， 这 可 以 采用 
本 书 附带 的 Linux 虚拟 机 或 其 他 适当 的 Linux 发 行 版 来 完成 。 

对 于 采用 本 书 来 讲授 操作 系统 的 教师 ， 可 以 获得 每 章 习 题 和 编程 题 的 答案 。 要 获得 这 些 
补充 材料 ， 请 联系 当地 的 John Wiley & Sons 销售 代表 。 


O 关于 本 书 教 辅 资源 ， 只 有 使 用 本 书 作为 教材 的 教师 才 可 以 申请 ， 需 要 的 教师 可 访问 华章 网 站 www. 
hzbook.com 下 载 ， 也 可 向 约翰 ' 威 立 出 版 公司 北京 代表 处 申请 ， 电 话 010-8418 7869， 电 子 邮件 sliang@ 
wileycom。 一 一 编辑 注 


学 生 注 意 事项 


我 们 鼓励 你 阅读 由 我 们 的 一 位 学 生 准 备 的 学 生 学 习 指南 。 最 后 ， 对 于 不 熟悉 UNIX 和 
Linux 系统 的 学 生 ， 建 议 你 下 载 并 安装 支持 网 站 的 Linux 虚拟 机 。 这 不 仅 为 你 提供 了 新 的 计 
算 体验 ， 而 且 Linux 的 开放 源码 能 帮助 你 轻松 分 析 这 个 流行 操作 系统 的 内 部 细节 。 

祝 你 在 学 习 操作 系统 的 旅程 中 一 切 顺 利 。 


联系 我 们 
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操作 系统 位 于 计算 机 用 户 与 计算 机 硬件 之 间 。 操 作 系统 的 目的 是 提 
供 环境 ， 以 便 用 户 能 够 便捷 而 且 高 效 地 执行 程序 。 

操作 系统 是 管理 计算 机 硬件 的 软件 。 硬 件 必须 提供 适当 机 制 ， 以 确 
保 计 算 机 系统 的 正确 运行 并 且 防 止 用 户 程序 干扰 系统 的 正常 运行 。 

操作 系统 可 以 采用 许多 不 同 的 组 织 方式 ， 因 此 内 部 结构 也 有 很 大 差 
Ho 设计 新 的 操作 系统 的 任务 是 艰巨 的 。 在 设计 开始 之 前 ， 明 确 界定 设 
计 系 统 的 目标 是 非常 重要 的 。 这 些 目 标 是 选择 不 同 算法 和 策略 的 基础 。 

操作 系统 既 上 庞大 又 复杂 ， 因 此 应 当 分 块 构 造 。 每 块 都 应 具有 描述 明 
确 的 系统 部 分 ， 并 且 具 有 严格 定义 的 输入 、 输 出 和 功能 。 
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操作 系统 ( operating system) 是 管理 计算 机 硬件 的 程序 。 它 还 为 应 用 程序 提供 基础 ， 并 
且 充 当 计 算 机 用 户 和 计算 机 硬件 的 中 介 。 操 作 系 统 令 人 惊奇 的 特点 是 ， 完 成 这 些 任务 的 方式 
多 种 多 样 。 大 型 机 的 操作 系统 主要 用 于 优化 硬件 使 用 率 。 个 人 计算 机 (Personal Computer, 
PC) 的 操作 系统 支持 复杂 游戏 、 商 业 应 用 和 这 两 者 之 间 的 其 他 应 用 。 移 动 计算 机 的 操作 系统 
为 用 户 提 供 一 个 环境 ， 以 便 与 计算 机 进行 交互 及 执行 程序 。 因 此 ， 有 的 操作 系统 设计 关注 便 
捷 ， 有 的 关注 高 效 ， 而 还 有 的 则 要 兼顾 两 者 。 

在 探究 计算 机 操作 系统 的 细节 之 前 ， 需 要 了 解 系统 结构 的 一 些 知识 。 本 章 首 先 讨论 系统 
启动 、1/O 和 存储 的 基本 功能 ， 然 后 讨论 编写 一 个 可 用 操作 系统 需要 的 基本 计算 机 架构 。 

由 于 操作 系统 既 庞 大 又 复杂 ， 应 一 部 分 一 部 分 地 构造 。 每 一 部 分 都 应 具有 明确 描述 的 系 
统 部 分 ， 而 且 输入 、 输 出 及 功能 都 有 明确 定义 。 本 章 概 述 了 现代 计算 机 系统 的 主要 部 件 及 操 
作 系 统 的 功能 。 另 外 ， 为 便于 本 书后 面 的 学 习 ， 本 章 也 讨论 了 许多 其 他 内 容 ， 包 括 操作 系统 
采用 的 数据 结构 、 计 算 环境 及 开源 操作 系统 。 

本 章 目标 

o 描述 计算 机 系统 的 基本 组 成 。 

© 概述 操作 系统 的 主要 组 件 。 

© 概述 多 种 类 型 的 计算 环境 。 

© 探讨 多 个 开源 的 操作 系统 。 


1.1 操作 系统 的 功能 


我 们 首先 讨论 操作 系统 在 整个 计算 机 系统 中 的 作用 。 计 算 机 系统 可 以 粗 分 为 四 个 组 件 : 
硬件 、 操 作 系 统 、 应 用 程序 和 用 户 (图 1-1 )。 

硬件 (hardware)， 如 中 央 处 理 单元 (Central Processing Unit, CPU), A (memory), 
输入 / 输出 设备 (InpuVOutput device, I/O device)， 为 系统 提供 基本 的 计算 资源 。 应 用 程序 
(application program)， 如 字 处 理 程序 、 电 子 制 表 软 件 、 编 译 器 、 网 络 浏 览 右 ， 规 定 了 用 户 为 
解决 计算 问题 而 使 用 这 些 资源 的 方式 。 操 作 系 统 控 制 硬件 ， 并 协调 各 个 用 户 应 用 程序 的 硬件 
使 用 。 

计算 机 系统 可 以 分 为 硬件 、 软 件 及 数据 。 当 计算 机 系统 运行 时 ， 操 作 系 统 提 供 正 确 手段 
以 便 使 用 这 些 资源 。 操 作 系统 类 似 于 政府 ， 其 本 身 不 能 实现 任何 有 用 功能 ， 而 是 提供 一 个 方 
便 其 他 程序 执行 有 用 工作 的 环境 。 

为 了 更 全 面 地 理解 操作 系统 的 作用 ， 接 下 来 从 两 个 视角 探讨 操作 系统 : 用 户 视角 和 系统 
视角 。 


1.1.1 用 户 视角 
计算 机 的 用 户 视角 因 使 用 界面 不 同 而 不 同 。 大 多 数 计算 机 用 户 坐 在 PC 前 ，PC 有 显示 
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器 、 键 盘 、 鼠 标 和 主机 。 这 类 系统 让 单个 用 户 单 独 使 用 资源 ， 其 目的 是 优化 用 户 进行 的 工作 
(或 游戏 )。 对 于 这 种 情况 ， 操 作 系 统 设计 的 主要 目的 是 用 户 使 用 方便 ( ease of use)， 次 要 的 

是 性 能 ， 不 在 乎 的 是 资源 利用 (resource utilization) (如 何 共享 硬件 和 软件 资源 )。 当 然 ， 性 能 

对 用 户 来 说 也 重要 ， 不 过 这 种 系统 优化 的 重点 是 单个 用 户 的 体验 而 不 是 多 个 用 户 的 需求 。 





图 1-1 计算 机 系统 组 件 的 抽象 视图 


在 其 他 情况 下 ， 一 个 用 户 坐 在 与 大 型 机 ( mainframe) 或 小 型 机 (minicomputer) 相连 的 
终端 前 ， 其 他 用 户 通过 其 他 终端 访问 同一 计算 机 。 这 些 用 户 共 享 资 源 并 且 可 以 交换 信息 。 这 
种 操作 系统 的 设计 目标 是 优化 资源 利用 率 : 确保 所 有 的 CPU 时 间 、 内 存 和 IO 都 能 得 到 有 
效 使 用 ， 并且 确保 没有 用 户 使 用 超过 限额 以 外 的 资源 。 

在 男 一 些 情况 下 ， 用 户 坐 在 工作 站 (workstation) 前 ， 这 类 工作 站 与 其 他 工作 站 和 服务 
器 (server) 相连 。 这 类 用 户 不 但 可 以 使 用 专用 资源 ， 而 且 可 以 使 用 网 络 和 服务 器 的 共享 资 
源 ， 包 括 文件 、 计 算 和 打印 服务 器 等 。 因 此 ， 这 类 操作 系统 的 设计 需要 兼顾 使 用 方便 性 和 资 
源 利 用 率 。 

近来 ， 智 能 手机 和 平板 电脑 等 移动 计算 机 已 成 为 时 尚 。 大 多 数 移动 计算 机 为 单个 用 户 单 
独 使 用 。 通 常 ， 它 们 通过 蜂窝 或 其 他 无 线 技术 与 网 络 相连 。 对 于 主要 处 理 Email 和 浏览 网 页 的 
用 户 ， 这 种 移动 设备 正在 取代 桌面 计算 机 和 笔记 本 计算 机 。 移 动 计算 机 的 用 户 界面 主要 是 触摸 
屏 (touch screen)， 用 户 通 过 对 屏幕 进行 触 碰 与 滑动 来 交互 ， 而 无 需 使 用 键盘 和 鼠标 。 

有 的 计算 机 几乎 没有 或 根本 没有 用 户 界面 。 例如， 家 电 和 汽车 使 用 的 内 入 式 计算 机 可 能 
只 有 数字 键盘 ， 只 能 通过 打开 和 关闭 指示 灯 来 显示 状态 ,而且 这 些 设备 及 其 操作 系统 通常 无 
需 用 户 干预 就 能 执行 。 


1.1.2 ”系统 视角 


从 计算 机 的 角度 来 看 ， 操 作 系 统 是 与 硬件 紧密 相连 的 程序 。 因 此 ， 可 将 操作 系统 看 作 资 
源 分 配器 (resource allocator)。 为 了 解决 问题 ， 计 算 机 系统 可 能 具有 许多 资源 : CPU 时 间 、 
内 存 空间 、 文 件 存储 空间 、IO 设备 等 。 操 作 系 统管 理 这 些 资 源 。 面 对 许多 甚至 冲突 的 资源 
请 求 ， 操 作 系 统 应 考虑 如 何 为 各 个 程序 和 用 户 分 配 资源 ， 以 便 计算 机 系统 能 有 效 且 公平 地 运 
行 。 正 如 前 面 所 说 ， 对 于 多 个 用 户 访 问 主机 或 微型 计算 机 ， 资 源 分 配 是 特别 重要 的 。 
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操作 系统 的 另 一 个 稍 有 不 同 的 视角 是 ， 强 调控 制 各 种 VO 设备 和 用 户 程序 的 需求 。 操 作 
系统 是 个 控制 程序 。 控 制程 序 ( control program) 管理 用 户 程序 的 执行 ， 以 防止 计算 机 资源 
的 错误 或 不 当 使 用 。 它 特别 注重 IO 设备 的 运行 和 控制 。 


1.1.3 ”操作 系统 的 定义 


现在 你 可 能 知道 操作 系统 具有 很 多 用 途 与 功能 。 这 是 (至 少 部 分 是 ) 由 于 计算 机 设计 与 
用 途 的 多 样 性 。 计 算 机 无 处 不 在 ， 有 日 用 的 也 有 商用 的 ， 如 烤 面 包机 、 汽 车 、 船 舶 、 航 天 咒 
中 都 有 。 它 们 是 游戏 机 、 音 乐 播放 器 、 有 线 电视 调谐 器 及 工业 控制 系统 的 基础 。 虽 然 计算 
机 的 历史 相对 较 短 ， 但 是 发 展 迅猛 。 计 算 机 起 初 是 试验 到 底 能 做 什么 ， 很 快 就 发 展 成 专用 系 
统 ， 如 在 军事 中 用 作 破 译 密码 、 绘 制 弹道 等 ， 在 政府 中 用 作 人 口 普 查 等 。 这 些 早期 的 计算 机 
后 来 发 展 成 通用 的 多 功能 大 型 机 ， 这 时 操作 系统 也 随 之 出 现 了 。 在 20 世纪 60 年 代 ， 摩 尔 定 
律 (Moore's Law) 预测 集成 电路 可 容纳 元 器 件 的 数目 每 隔 18 个 月 便 会 翻 倍 ， 该 预测 是 成 立 
的 。 随 着 计算 机 功能 的 不 断 强大 和 体积 的 不 断 减 小 ， 也 产生 了 大 量 不 同 的 操作 系统 。( 关 于 
操作 系统 的 历史 细节 ， 参 见 第 18 章 。) 

那么 ， 我 们 如 何 定 义 操作 系统 呢 ? 一 般 来 说 ， 我 们 没有 一 个 关于 操作 系统 的 完全 准确 
的 定义 。 操 作 系 统 的 存在 是 因为 它们 提供 了 合理 方式 来 解决 创建 可 用 计算 系统 的 问题 ， 计 算 
机 系统 的 根本 目的 是 ， 执 行 用 户 程序 并 且 更 容易 解决 用 户 问题 。 为 实现 这 一 目的 ， 构造 了 计 
算 机 硬件 。 由 于 硬件 本 身 并 不 十 分 容易 使 用 ， 因 此 开发 了 应 用 程序 。 这 些 应 用 程序 需要 一 些 
共同 操作 ， 如 控制 WO 设备 。 这 些 控制 和 分 配 IO 设备 资源 的 共同 功能 则 被 组 成 一 个 软件 模 
块 : 操作 系统 。 

另外 ， 也 没有 一 个 广泛 接受 的 究竟 什么 属于 操作 系统 的 定义 。 一 种 简单 观点 是 ， 操 作 
系统 包括 当 你 预订 一 个 “操作 系统 ”时 销售 商 发 送 的 所 有 一 切 。 当 然 ， 包 括 的 功能 随 系 统 
不 同 而 不 同 。 有 的 系统 只 有 不 到 1MB 的 空间 且 没 有 全 屏 编 辑 器 ， 而 有 的 系统 需要 数 GB 
(Gigabyte) 空间 而 且 完 全 采用 图 形 窗口 系统 。 一 个 比较 公认 的 定义 是 (也 是 本 书 所 采用 的 )， 
操作 系统 是 一 直 运 行 在 计算 机 上 的 程序 (通常 称 为 内 核 ( kernel) )。( 除 了 内 核 外 ， 还 有 其 他 
两 类 程序 ， 系统 程序 (system program) 和 应 用 程序 。 前 者 是 与 系统 运行 有 关 的 程序 ， 但 不 
是 内 核 的 一 部 分 ， 后 者 是 与 系统 运行 无 关 的 所 有 其 他 程序 。) 

随 着 个 人 计算 机 的 日 益 普 及 和 操作 系统 功能 的 日 益 强 大 ， 关 于 操作 系统 到 底 由 什么 组 成 
这 一 问题 也 变 得 越 来 越 重 要 。1998 年 ， 美 国 司 法 部 控告 Microsoft 增加 过 多 功能 到 操作 系统 ， 
因此 妨碍 了 其 他 应 用 程序 开发 商 的 公平 竞争 (例如 ,将 Web 浏览 器 作为 操作 系统 整体 的 一 
个 部 分 )。 结 果 ，Microsoft 在 通过 操作 系统 垄断 以 限制 竞争 上 ， 被 判 有 罪 。 

然而 ， 现 在 我 们 看 看 移动 设备 的 操作 系统 ， 就 会 发 现 这 些 操作 系统 的 特征 不 但 量 多 而 
且 强 大 。 移 动 操 作 系统 通常 不 只 有 内 核 也 有 中 间 件 (middleware) (为 应 用 程序 开发 人 员 提 
供 其 他 功能 的 软件 框架 )。 例如， 最 常见 的 两 个 移动 操作 系统 ，Apple fy iOS 和 Google 的 
Android， 除 了 内 核 外 ， 都 有 中 间 件 以 便 支 持 数据 、 多 媒体 和 图 形 等 。 


1.2 计算 机 系统 的 组 成 


在 探讨 计算 机 系统 如 何 运 行 的 细节 之 前 ， 需 要 对 计算 机 系统 的 结构 有 一 定 的 了 解 。 本 节 
先 看 看 该 结构 的 若干 子 部 分 。 本 节 主 要 关于 计算 机 系统 的 组 成 ， 如 果 你 已 经 理解 这 些 概念 ， 
那么 可 以 浏览 或 跳 过 本 节 。 
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1.2.1 计算 机 系统 的 运行 


现代 通用 计算 机 系统 包括 一 个 或 多 个 CPU 和 若干 设备 控制 器 ， 通 过 公用 总 线 相连 而 成 ， 
该 总 线 提供 了 共享 内 存 的 访问 (图 1-2 )。 每 个 设备 控制 器 负责 一 类 特定 的 设备 〈 如 磁盘 驱动 
器 、 音 频 设 备 或 视频 显示 器 )。CPU 与 设备 控制 器 可 以 并 发 执行 ， 并 且 竞 争 访问 内 存 。 为 了 
确保 有 序 访 问 共享 内 存 ， 需 要 内 存 控制 器 来 协调 访问 内 存 。 


鼠标 meo 。 打印 机 a 





图 1-2 现代 计算 机 系统 


当 计 算 机 电源 打开 或 重启 以 便 开始 运行 时 ， 它 需要 运行 一 个 初始 程序 。 该 初始 程序 或 引 
SF (bootstrap program) 通常 很 简单 ， 一 般 位 于 计算 机 的 固件 ( firmware)， 如 只 读 内 存 
(Read-Only Memory, ROM) 或 电 可 擦 可 编程 只 读 内 存 ( Electrically Erasable Programmable 
Read-Only Memory，EEPROM)。 它 初始 化 系统 的 各 个 组 件 ， 从 CPU 寄存 器 、 设 备 控制 器 
到 内 存 内 容 。 引 导 程 序 必须 知道 如 何 加 载 操 作 系 统 并 且 开 始 执行 系统 。 为 了 完成 这 一 目标 ， 
引导 程序 必须 定位 操作 系统 内 核 并 且 加 到 内 存 。 

一 旦 内 核 加 到 内 存 并 执行 ， 它 就 开始 为 系统 与 用 户 提供 服务 。 除 了 内 核 外 ， 系 统 程 序 
也 提供 一 些 服务 ， 它 们 在 启动 时 加 到 内 存 而 成 为 系统 进程 (system process) 或 系统 后 台 程序 
(system daemon)， 其 生命 周期 与 内 核 一 样 。 对 于 UNIX， 首 个 系统 进程 为 “init”， 它 启动 许 
多 其 他 系统 的 后 台 程序 。 一 旦 这 个 阶段 完成 ， 系 统 就 完全 启动 了 ， 并 且 等 待 事件 发 生 。 

事件 发 生 通 常 通过 硬件 或 软件 的 中 断 (interrupt) 来 通知 。 硬 件 可 以 随时 通过 系统 总 线 
发 送信 号 到 CPU ， 以 触发 中 断 。 软 件 也 可 通过 执行 特别 操作 即 系统 调用 〈system call) (也 称 
为 监督 程序 调用 (monitor call) )， 以 触发 中 断 。 

当 CPU 被 中 断 时 ， 它 停止 正在 做 的 事 ， 并 立即 转 到 固定 位 置 再 继续 执行 。 该 固定 位 置 
通常 包含 中 断 服务 程序 的 开始 地 址 。 中 断 服务 程序 开始 执行 ， 在 执行 完 后 ，CPU 重新 执行 
被 中 断 的 计算 。 这 一 运行 的 时 间 表 如 图 1-3 所 示 。 







in 用 户 进程 执行 
IO 中 断 处 理 


VORR ”传送 完成 ” LO 请 求 ” 传 送 完成 
图 1-3 单个 进程 执行 输出 的 中 断 时 间 表 
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中 断 是 计算 机 体系 结构 的 重要 部 分 。 虽 然 每 个 计算 机 设计 都 有 自己 的 中 断 机 制 ， 但 是 有 
些 功能 是 共同 的 。 中 断 应 将 控制 转移 到 合适 的 中 断 服务 程序 。 处 理 这 一 转移 的 直接 方法 是 ， 
调用 一 个 通用 程序 以 检查 中 断 信息 。 接 着 ， 该 程序 会 调用 特定 的 中 断 处 理 程序 。 不 过 ， 中 断 
处 理应 当 快 捷 。 由 于 只 有 少量 预先 定义 的 中 断 ， 所 以 可 以 通过 中 断 处 理 程序 的 指针 表 来 提高 
速度 。 这 样 通过 指针 表 可 以 间接 调用 中 断 处 理 程序 ， 而 无 需 通 过 其 他 中 介 程 序 。 通 常 ， 指 
针 表 位 于 低地 址 内 存 (前 100 左右 的 位 置 )。 这 些 位 置 包含 各 种 设备 的 中 断 处 理 程序 的 地 址 。 
这 种 地 址 的 数组 或 中 断 向 量 (interrupt vector)， 对 于 任 一 给 定 的 中 断 请 求 ， 可 通过 唯一 的 设 
备 号 来 索引 ， 进 而 提供 设备 的 中 断 处 理 程 序 的 地 址 。 许 多 不 同 的 操作 系统 ， 如 Windows 或 
UNIX， 都 采用 这 种 方式 来 处 理 中 断 。 

中 断 体系 结构 也 应 保存 中 断 指 令 的 地 址 。 许 多 以 前 的 设计 只 是 简单 地 将 中 断 地 址 保存 在 
某 个 固定 位 置 或 可 用 设备 号 来 索引 的 位 置 。 而 现代 体系 结构 将 返回 地 址 保存 在 系统 堆栈 上 。 
如 果 中 断 程 序 需要 修改 处 理 器 状态 ， 如 修改 寄存 器 的 值 ， 则 应 明确 保存 当前 状态 ， 并 在 返回 
之 前 恢复 该 状态 。 在 处 理 完 中 断 之 后 ， 保 存 的 返回 地 址 会 加 载 到 程序 计数 器 ， 被 中 断 的 计算 
可 以 重新 开始 ， 就 好 像 中 断 没有 发 生 过 一 样 。 


存储 定义 与 符号 

计算 机 存储 的 基本 单位 是 位 或 比特 (bit)。 每 个 位 可 以 包含 一 个 0 或 一 个 1。 所 有 其 
他 计算 机 存储 都 是 由 位 组 合 而 成 的 。 只 要 位 数 足 够 ， 计 算 机 就 能 表示 各 种 信息 : 数字 、 字 
母 、 图 像 、 视 频 、 音 频 、 文 档 和 程序 等 。 每 个 字 节 (byte) 为 8 位 ， 这 是 大 多 数 计算 机 的 
常用 最 小 存储 。 例 如 ， 虽 然 大 多 数 计算 机 没有 移动 单个 位 的 指令 ， 但 是 有 移动 单个 字 节 的 
指令 。 另 一 较 少 使 用 的 单位 是 字 〈word)， 这 是 一 个 给 定 计 算 机 架构 的 常用 存储 单位 。 每 
个 字 由 一 个 或 多 个 字 节 组 成 。 例 如 ， 一 个 具有 64 位 寄存 器 和 64 位 内 存 寻 址 的 计算 机 通 
常 采 用 64 位 (8 字 节 ) 的 字 。 计 算 机 的 许多 操作 通常 是 按 字 为 单位 的 ， 而 不 是 按 字 节 为 
单位 的 。 

计算 机 存储 与 计算 机 的 大 多 数 部 分 一 样 ， 通 常 按 字 节 或 字 节 组 合 来 计算 或 操作 。 每 
FFA (kilobyte, KB) 为 1024 字 节 ， 每 兆 字 节 (megabyte, MB) 为 10242 字 节 ， 每 十 
{ZF 75 (gigabyte, GB) 4 1024 字 节 ， 每 兆 兆 字 节 (terabyte, TB) X 1024 字 节 ， 每 
干 兆 兆 字 节 (petabyte, PB) 为 1024 字 节 。 计算 机 制造 商 通常 进行 圆 整 ， 认 为 1MB = 106 
字 节 ，1GB = 10” 字 节 。 然 而 ， 网 络 计量 则 不 同 ， 它 们 通常 是 按 位 来 计算 的 (因为 网 络 一 
次 移动 一 位 )。 


1.2.2 存储 结构 


CPU 只 能 从 内 存 中 加 载 指 令 ， 因 此 执行 程序 必须 位 于 内 存 。 通 用 计算 机 运行 的 大 多 
数 程序 通常 位 于 可 读 写 内 存 ， 称 为 内 存 (main memory)， 也 称 为 随机 访问 内 存 (Random 
Access Memory，RAM)。 内 存 通常 为 动态 随机 访问 内 存 (Dynamic Random Access Memory, 
DRAM)， 它 采用 半导体 技术 来 实现 。 

计算 机 也 使 用 其 他 形式 的 内 存 ， 如 我 们 已 经 提 到 的 只 读 内 存 (ROM) 和 电 可 擦 可 编程 只 
读 内 存 (EEPROM)。 由 于 ROM 不 可 修改 ， 因 此 只 能 将 静态 程序 (如 引导 程序 ) 存在 其 中 。 
ROM 的 不 可 变性 对 游戏 盒 来 说 还 是 有 用 的 。EEPROM 可 以 修改 ,但 是 不 能 经 常 修改 ， 因 此 
可 以 保存 大 多 数 的 静态 程序 ， 例 如 ， 智 能 手机 采用 EEPROM 来 存储 工厂 安装 的 程序 。 
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所 有 形式 的 内 存 都 提供 字 节 数组 ， 每 个 字 节 都 有 地 址 。 交 互通 过 针对 特定 内 存 地 址 ， 执 
行 一 系列 load 或 store 指令 来 实现 。 指 令 load 将 内 存 字 节 或 字 保存 到 CPU 寄存 器 ， 而 指 
令 store 将 寄存 器 内 容 保存 到 内 存 。 除 了 明确 使 用 load 和 store 外 ，CPU 还 会 自动 加 载 
内 存 指 令 以 便 执行 。 

在 冯 - 诺 依 曼 体 系 结构 (von Neumann architecture) 上 执行 时 ， 一 个 典型 的 指令 执行 周 
期 是 ， 首 先 从 内 存 中 获取 指令 ， 并 存 到 指令 寄存 器 (instruction register)。 接 着 ， 该 指令 被 
解码 ， 也 可 能 会 从 内 存 中 获取 操作 数据 并 且 存 到 内 部 寄存 器 。 在 指令 完成 对 操作 数据 的 执行 
后 ， 结 果 也 可 存 到 内 存 。 注 意 : 内 存单 元 只 能 看 到 内 存 地 址 的 流 ， 而 并 不 知道 它们 如 何 产生 
(通过 指令 计数 器 、 索 引 、 间 接 、 常 量 地 址 或 其 他 方式 ) 或 它们 是 什么 样 (指令 或 数据 ) 的 地 
址 。 相 应 地 ， 我 们 可 以 忽略 程序 如 何 产生 内 存 地 址 ， 而 只 关注 由 程序 运行 所 生成 的 地 址 序 
列 。 

在 理想 情况 下 ， 程 序 和 数据 都 应 永久 驻 留 在 内 存 中 。 由 于 以 下 两 个 原因 ， 这 是 不 可 
能 的 : 

© 内 存 通常 太 少 ， 不 能 永久 保存 所 有 需要 的 程序 和 数据 。 

© 内 存 是 易 失 性 的 (volatile) 存储 设备 ， 掉 电 时 就 会 失去 所 有 内 容 。 
因此 ， 大 多 数 的 计算 机 系统 都 提供 外 存 ( secondary storage) 来 扩充 内 存 。 外 存 的 主要 需求 
是 ， 能 够 永久 存储 大 量 数据 。 

最 为 常用 的 外 存 设 备 为 磁盘 或 硬盘 (magnetic disk)， 它 能 存储 程序 和 数据 。 大 多 数 程序 
(系统 与 应 用 ) 都 保存 在 磁盘 上 ， 当 要 执行 时 才 加 载 到 内 在 。 许 多 程序 都 使 用 磁盘 作为 它们 
处 理 的 起 点 和 终点 。 因 此 ， 磁 盘存 储 的 管理 是 否 适 当 ， 对 计算 机 系统 来 说 十 分 重要 ， 这 将 在 
第 12 章 中 加 以 讨论 ， 

从 更 广 意义 上 来 说 ， 以 上 所 述 的 存储 结构 (由 寄存 器 、 内 存 和 磁盘 组 成 的 )， 仅 仅 只 
是 多 种 存储 系统 的 一 种 。 除 此 之 外 ， 还 有 高 速 缓存 、CD-ROM 、 磁 带 等 。 每 个 存储 系统 
都 可 存储 与 保存 数据 ， 以 便 以 后 提取 。 各 种 存储 系统 的 主要 差异 是 速度 、 价 格 、 大 小 和 易 
失 人 性。 

根据 速度 和 价格 ， 各 种 不 同 的 存储 可 按 层 次 来 分 类 (图 1-4 )。 层 次 越 高 ， 价 格 越 贵 ， 
速度 越 快 。 从 高 到 低 ， 每 个 层次 的 价格 通常 会 降低 ， 而 访问 时 间 通 常会 增加 。 这 种 折 中 是 合 
理 的 ， 如 果 一 个 给 定 存储 系统 比 另 一 个 更 快 更 便宜 ， 而 其 他 属性 一 样 ， 那 么 就 没有 理由 使 用 
更 慢 更 昂贵 的 存储 。 事 实 上， 许多 早期 存储 设备 ， 如 纸 带 和 磁 心 存储 器 ， 之 所 以 现在 已 经 进 
入 博物馆， 就 是 因为 磁带 和 半导体 内 存 (semiconductor memory) 已 变 得 更 快 更 便宜 。 图 1-4 
中 上 面 四 层 存储 通常 由 半导体 内 存 构成 。 

除了 不 同 的 速度 和 价格 ， 存 储 系统 还 分 为 易 失 的 和 非 易 失 的 。 当 电源 切断 时 ， 正 如 前 面 
所 讲 ， 易 失 存 储 (volatile storage) 会 丢失 内 容 。 如 果 没 有 昂贵 的 电池 和 发 电 后 备 系 统 ， 那 么 
数据 应 写 到 非 易 失 存储 (nonvolatile storage) 以 便 安全 保管 。 在 图 1-4 所 示 的 层次 中 ， 固 态 
磁盘 之 上 的 存储 系统 为 易 失 的 ， 而 之 下 的 为 非 易 失 的 。 

固态 磁盘 (solid-state disk) 有 多 种 类 型 ， 一 般 来 说 都 比 磁盘 要 快 ， 也 是 非 易 失 的 。 一 种 
类 型 的 固态 磁盘 在 运行 时 将 数据 保存 在 一 个 大 的 DRAM 数组 上 ， 它 有 一 个 隐藏 磁盘 和 一 个 
作为 备份 电源 的 电池 。 当 外 部 电源 被 中 断 时 ， 固 态 磁盘 控制 器 将 数据 从 RAM 复制 到 磁盘 。 
当 外 部 电源 恢复 后 ， 控 制 器 将 数据 复制 到 RAM。 另 一 种 固态 磁盘 是 闪存 ， 它 在 照相 机 、 个 
人 数字 助理 ( Personal Digital Assistant, PDA) 和 机 器 人 中 很 受 欢 迎 ， 并 越 来 越 多 地 作为 通 


8 R- E É 


用 计算 机 的 存储 。 闪 存 比 DRAM 慢 ， 但 是 无 需 电 源 以 便 保存 内 容 。 另 一 种 非 易 失 性 存储 器 
是 NVRAM， 即 具有 备用 电池 的 DRAM。 这 种 存储 与 DRAM 一 样 快 ， 且 是 非 易 失 的 (只 要 
电池 有 电 )。 





SSS A ‘eight ot 
图 1-4 存储 设备 的 层次 


完整 存储 系统 的 设计 应 当 平 衡 所 有 以 上 讨论 的 各 种 因素 : 它 应 只 使 用 必需 的 昂贵 存储 ， 
而 提供 尽 可 能 便宜 的 、 非 易 失 的 存储 。 当 两 个 存储 组 件 的 访问 时 间或 传输 速率 具有 明显 差异 
时 ， 可 以 通过 高 速 缓存 来 改善 性 能 。 


1.2.3 10 结构 


存储 器 只 是 众多 计算 机 IO 设备 中 的 一 种 。 操 作 系 统 的 大 部 分 代码 专门 用 于 IO 管理 ， 
这 是 由 于 它 对 系统 的 可 靠 性 和 性 能 至 关 重 要 ， 也 是 由 于 不 同 设备 具有 不 同 特性 。 因 此 ， 我 们 
首先 概述 一 下 IO。 

每 个 通用 计算 机 系统 由 一 个 CPU 和 多 个 设备 控制 器 组 成 ， 它 们 通过 共同 总 线 连 在 一 起 。 
每 个 设备 控制 器 管理 某 一 特定 类 型 的 设备 。 根 据 设备 控制 器 的 特性 ， 可 以 允许 多 个 设备 与 其 
相连 。 例 如 ， 小 型 计算 机 系统 接口 ( Small Computer System Interface, SCSI) 控制 器 可 连接 
7 个 或 更 多 的 设备 。 每 个 设备 控制 器 维护 一 定量 的 本 地 缓冲 存储 和 一 组 特定 用 途 的 寄存 器 。 
设备 控制 器 负责 在 所 控制 的 外 围 设备 与 本 地 缓冲 存储 之 间 进 行 数据 传递 。 通 常 ， 操 作 系统 为 
每 个 设备 控制 器 提供 一 个 设备 驱动 程序 ( device driver)。 该 设备 驱动 程序 负责 设备 控制 器 ， 
并 且 为 操作 系统 的 其 他 部 分 提供 统一 的 设备 访问 接口 。 

在 开始 IO 时 ， 设 备 驱动 程序 加 载 设备 控制 器 的 适当 寄存 器 。 相 应 地 ， 设 备 控 制 器 检查 
这 些 寄 存 器 内 容 ， 以 便 决 定 采 取 什 么 操作 (如 “从 键盘 中 读 取 一 个 字符 ”)。 控 制 器 开始 从 
设备 向 本 地 缓冲 区 传输 数据 。 一 旦 完成 数据 传输 ， 设 备 控 制 器 就 会 通过 中 断 通知 设备 驱动 程 
序 ， 它 已 完成 了 操作 。 然 后 ， 设 备 驱动 程序 返回 控制 到 操作 系统 。 对 于 读 操作 ， 数 据 或 数据 
指针 也 会 返回 ; 而 对 于 其 他 操作 ， 设 备 驱 动 程序 返回 状态 信息 。 

这 种 IO 中断 驱动 适合 移动 少量 数据 ， 但 是 对 于 大 量 数据 的 移动 ， 如 磁盘 IO， 就 会 
带 来 很 高 的 开销 。 为 了 解决 这 个 问题 ， 可 以 采用 直接 内 存 访问 (Direct Memory Access, 
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DMA)。 在 为 这 种 IO 设备 设置 好 缓冲 、 指 针 和 计数 器 之 后 ， 设 备 控制 器 可 在 本 地 缓冲 和 内 
存 之 间 传 送 整 块 的 数据 ， 而 无 需 CPU 的 干预 。 每 块 只 产生 一 个 中 断 ， 来 告知 设备 驱动 程序 
操作 已 完成 ， 而 不 是 像 低 速 设 备 那 样 每 个 字 节 产生 一 个 中 断 。 当 设备 控制 器 执行 这 些 操作 
时 ，CPU 可 以 进行 其 他 工作 。 

一 些 高 端 系统 采用 交换 而 不 是 总 线 结构 。 在 这 些 系统 中 ， 多 个 组 件 可 以 与 其 他 组 件 同 时 
对 话 ， 而 不 是 竞争 公共 总 线 的 周期 。 此 时 ，DMA 更 为 有 效 。 图 1-5 表示 计算 机 系统 所 有 组 
件 的 相互 作用 。 





指令 执行 周期 





图 1-5 现代 计算 机 系统 的 工作 原理 


1.3 计算 机 系统 的 体系 结构 


1.2 节 介 绍 了 一 个 典型 计算 机 系统 的 通用 结构 。 计 算 机 系统 可 能 通过 许多 不 同 途径 来 组 [12] 
成 ， 这 里 根据 采用 的 通用 处 理 器 数量 来 进行 粗略 分 类 。 


1.3.1 单 处 理 器 系统 


直到 最 近 ， 大 多 数 系统 仍 采用 单 处 理 器 。 单 处 理 器 系统 只 有 一 个 主 CPU， 以 便 执行 一 
个 通用 指令 集 ， 该 指令 集 包括 执行 用 户 进程 的 指令 。 几 乎 所 有 单 处 理 器 系统 都 带 有 其 他 专用 
处 理 器 。 它 们 或 为 特定 设备 的 处 理 器 ， 如 磁盘 、 键 盘 、 图 形 控制 器 ; 或 为 更 通用 的 处 理 顺 ， 
如 在 系统 组 件 之 间 快 速 移动 数据 的 IO 处 理 器 。 

所 有 这 些 专 用 处 理 器 执行 有 限 指令 集 ， 而 并 不 执行 用 户 进程 。 在 有 的 环境 下 ， 它 们 由 操 
作 系统 来 管理 ， 此 时 操作 系统 将 要 做 的 任务 信息 发 给 它们 ， 并 监控 它们 的 状态 。 例 如 ， 磁 盘 
控制 器 的 微 处 理 器 接收 来 自主 CPU 的 一 系列 请 求 ， 并 执行 自己 的 磁盘 队列 和 调度 算法 。 这 
种 安排 使 得 主 CPU 不 必 再 执行 磁盘 调度 。PC 的 键盘 有 一 个 微 处 理 器 来 将 击 键 转换 为 代码 ， 
并 发 送 给 CPU。 在 其 他 的 环境 下 ， 专 用 处 理 器 作为 低层 组 件 集成 到 硬件 。 操 作 系统 不 能 与 
这 些 处 理 器 通信 ， 但 是 它们 可 以 自主 完成 任务 。 专 用 处 理 器 的 使 用 十 分 常见 ， 但 是 这 并 不 能 [3 
将 一 个 单 处 理 器 系统 变 成 多 处 理 器 系统 。 如 果 系 统 只 有 一 个 通用 CPU， 那 么 就 为 单 处 理 器 
系统 。 
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1.3.2 多 处 理 器 系统 


近年 来 ， 多 处 理 器 系统 (multiprocessing system) (也 称 为 并 行 系统 ( parallel system) 或 
多 核 系 统 (multicore system)) 开始 主导 计算 领域 。 这 类 系统 有 两 个 或 多 个 紧密 通信 的 CPU, 
它们 共享 计算 机 总 线 ， 有 时 还 共享 时 钟 、 内 存 和 外 设 等 。 多 处 理 器 系统 起 初 主要 应 用 于 服务 
器 ， 后 来 也 应 用 于 桌面 和 笔记 本 系统 。 近 来 ， 多 处 理 器 也 出 现在 移动 设备 上 ， 如 智能 手机 和 
平板 电脑 。 

多 处 理 器 系统 有 三 个 主要 优点 : 

e 增加 吞吐 量 : 通过 增加 处 理 器 数量 ， 以 期 能 在 更 短 时 间 内 完成 更 多 工作 。 采 用 N 个 
处 理 器 的 加 速 比 不 是 W， 而 是 小 于 N。 当 多 个 CPU 协同 完成 同一 任务 时 ， 为 了 让 各 
部 分 能 够 正确 执行 ， 会 有 一 定 的 额外 开销 。 这 些 开 销 ， 加 上 竞争 共享 资源 ， 会 降低 
因 增 加 了 CPU 的 期 望 增益 。 这 类 似 于 N 位 程序 员 一 起 紧密 工作 ， 而 不 能 完成 YX 倍 于 
单个 程序 员 的 工作 量 。 
规模 经 济 : 多 处 理 器 系统 的 价格 要 低 于 相同 功能 的 多 个 单 处 理 器 系统 的 价格 ， 因 为 前 
者 可 以 共享 外 设 、 大 容量 存储 和 电源 供给 。 如 果 多 个 程序 需要 操作 同一 数据 集 ， 那 
么 将 这 些 数据 放 在 同一 磁盘 并 让 多 处 理 器 共享 ， 将 比 采用 多 个 具有 本 地 磁盘 的 计算 
机 和 多 个 数据 副本 更 为 节省 。 
增加 可 靠 性 : 如 果 将 功能 分 布 在 多 个 处 理 器 上 ， 那 么 单个 处 理 器 的 失灵 不 会 使 得 整 
个 系统 停止 ， 而 只 会 使 它 变 慢 。 如 果 10 个 处 理 器 中 的 1 个 出 了 故障 ， 那 么 剩 下 的 9 
个 会 分 担 起 故障 处 理 器 的 那 部 分 工作 。 因 此 ， 整 个 系统 只 是 比 原 来 慢 了 10%， 而 不 
是 完全 失败 。 

对 于 许多 应 用 ， 增 加 计算 机 系统 的 可 靠 性 是 极其 重要 的 。 根 据 剩 从 有 效 硬 件 的 级 别 按 
比例 继续 提供 服务 的 能 力 称 为 适度 退化 〈graceful degradation)。 有 的 系统 超过 适度 退化 ， 称 
ACS (fault tolerant)， 因 为 它们 能 够 容忍 单个 部 件 错误 ， 并 且 仍 然 继 续 运 行 。 容 错 需要 一 
定 的 机 制 来 对 故障 进行 检测 、 诊 断 和 (如果 可 能 ) ZUG. HP NonStop 系统 (以 前 的 Tandem) 
通过 使 用 重复 的 硬件 和 软件 ,来 确保 在 有 故障 时 也 能 继续 工作 。 该 系统 具有 多 对 CPU, € 
们 锁 步 工作 。 每 对 处 理 器 都 各 自 执 行 自 己 的 指令 ， 并 比较 结果 。 如 果 结 果 不 一 样 ， 那 么 其 中 
一 个 CPU 出 错 ， 此 时 两 个 都 停 下 。 接 着 ， 停 着 的 进程 被 转 到 另 一 对 CPU， 刚才 出 错 的 指令 
重新 开始 执行 。 这 种 方法 比较 昂贵 ， 因 为 它 用 到 专用 硬件 和 相当 多 的 重复 硬件 。 

现在 所 用 的 多 处 理 器 系统 有 两 种 类 型 。 有 的 系统 采用 非 对 称 处 理 (asymmetric 
mnultiprocessing)， 即 每 个 处 理 器 都 有 各 自 特 定 的 任务 。 一 个 主 处 理 器 〈boss processor) 控制 
系统 ， 其 他 处 理 器 或 者 向 主 处 理 器 要 任务 或 做 预先 规定 的 任务 。 这 种 方案 称 为 主 从 关系 。 主 
处 理 器 调度 从 处 理 器 ， 并 安排 工作 。 

最 为 常用 的 多 处 理 器 系统 采用 对 称 多 处 理 ( Symmetric MultiProcessing，SMP )， 每 个 处 
理 器 都 参与 完成 操作 系统 的 所 有 任务 。SMP 表示 所 有 处 理 器 对 等 ， 处 理 器 之 间 没 有 主 从 关 
系 。 图 1-6 显示 了 一 个 典型 的 SMP 结构 。 注 意 ， 每 个 处 理 器 都 有 上 自己 的 寄存 器 集 ， 也 有 私 
有 或 本 地 缓存 ; 不 过 ， 所 有 处 理 器 都 共享 物理 内 存 。SMP 的 一 个 例子 是 AIX， 这 是 IBM 设 
计 的 一 种 商用 版 .UNIX。 每 个 AIX 系统 可 以 配 有 多 个 处 理 器 。 这 种 模型 的 优点 是 许多 进程 
可 以 同时 执行 (如果 有 NN 个 CPU， 那么 可 执行 YX 个 进程 )， 而 且 并 不 会 明显 地 影响 性 能 。 然 
而 ， 应 该 仔细 控制 7O， 确 保 数据 到 达 适 当 处 理 器 。 另 外 ， 由 于 各 个 CPU 互相 独立 ， 一 个 
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可 能 空闲 而 另 一 个 可 能 过 载 ， 导 致 效率 低 。 这 种 低 效 是 可 以 避免 的 ， 只 要 处 理 器 共享 一 定 的 
数据 结构 。 这 种 形式 的 多 处 理 器 系统 可 动态 共享 进程 和 资源 (包括 内 存 )， 进 而 可 降低 处 理 
器 之 间 的 差异 。 这 种 系统 需要 仔细 设计 ， 如 第 6 章 所 述 。 目 前 几乎 所 有 现代 操作 系统 ， 包 括 
Windows, Mac OSX 和 Linux 等 ， 都 支持 SMP. 





图 1-6 对 称 多 处 理 的 体系 结构 


对 称 与 非 对 称 处 理 的 差异 可 能 源 于 硬件 或 者 软件 。 特 定 硬 件 可 以 区 别 多 个 处 理 器 ， 软 
件 也 可 编 成 选择 一 个 处 理 器 为 主 ， 其 他 的 为 从 。 例 如 ， 在 同样 的 硬件 上 ，SUN 操作 系统 
SunOS V4 只 能 提供 非 对 称 处 理 ， 而 SunOS V5 (Solaris) 则 能 提供 对 称 处 理 。 

多 处 理 通过 增加 CPU 来 提高 计算 能 力 。 如 果 CPU 集成 了 内 存 控 制 器 ， 那 么 增加 CPU 
也 能 增 大 系统 的 访问 内 存 。 不 论 如 何 ， 多 处 理 可 使 系统 的 内 存 访 问 模型 ， 从 均匀 内 存 访 
问 ( Uniform Memory Access, UMA) 改 成 非 均匀 内 存 访问 (Non-Uniform Memory Access, 
NUMA)。 对 UMA，CPU 访问 RAM 的 所 需 时 间 相 同 ; 而 对 NUMA， 有 的 内 存 访问 的 所 需 时 
间 更 多 ， 这 会 降低 性 能 。 操 作 系 统 通 过 资源 管理 可 以 改善 NUMA 的 问题 ， 如 9.5.4 节 所 述 。 

CPU 设计 的 最 新 趋势 是 ， 集 成 多 个 计算 核 ( computing core) 到 单个 芯片 。 这 种 多 处 理 
器 系统 为 多 核 (multicore)。 多 核 比 多 个 单 核 更 加 高 效 ， 因 为 单 片 通信 比 多 个 芯片 通信 更 快 。 

再 者 ， 多 核 芯片 的 电源 消耗 比 单 核 芯片 低 得 多 。 

需要 注意 的 是 : 多 核 系统 为 多 处 理 器 系统 ， 但 并 不 是 所 有 多 处 理 器 系统 都 是 多 核 的 ， 参 
WL 1.3.3 节 。 除 非特 别 说 明 ， 本 书 在 使 用 多 核 这 一 更 为 流行 的 术语 时 ， 并 不 包括 一 般 的 多 处 
理 器 系统 。 

图 1-7 显示 了 一 个 双核 设计 。 该 设计 的 每 个 
核 都 有 自己 的 寄存 器 和 本 地 缓存 。 其 他 的 设计 可 
能 采用 共享 缓存 ， 或 混合 采用 本 地 缓存 和 共享 缓 
存 。 如 不 考虑 体系 结构 ， 如 缓存 、 内 存 及 总 线 竞 
争 ， 这 些 多 核 CPU 对 操作 系统 而 言 就 像 是 入 个 
标准 处 理 器 。 这 一 特点 促使 操作 系统 设计 人 员 
(及 应 用 程序 开发 人 员 ) 充分 利用 这 些 处 理 核 。 

最 后 ， 最 近 开 发 的 刀片 服务 器 (blade 
server) 将 多 处 理 器 板 、LIO 板 和 网 络 板 全 部 置 
于 同一 机 箱 。 它 和 传统 多 处 理 器 系统 的 不 同 在 
于 : 每 个 刀片 处 理 器 可 以 独立 启动 ， 并 且 运 行 - 

各 自 的 操作 系统 。 有 些 刀片 服务 器 板 也 是 多 处 图 1-7 采用 双核 餐 片 设计 





Lis] 


12 -ZA E ”人 论 


理 器 的 ， 从 而 模糊 了 计算 机 类 型 的 划分 。 本 质 上 ， 这 些 服务 器 由 多 个 独立 的 多 处 理 器 系统 组 成 。 


1.3.3 ”集群 系统 


另 一 类 型 的 多 处 理 器 系统 是 集群 系统 (clustered system)， 这 种 系统 将 多 个 CPU 组 合 在 
一 起 。 集 群 系统 与 1.3.2 节 所 述 的 多 处 理 器 系统 不 同 ， 它 由 两 个 或 多 个 独立 系统 (或 节点 ) 
A. REA RSE ARABS (loosely coupled)。 每 个 节点 可 为 单 处 理 器 系统 或 多 核 系 
统 。 应 当 注 意 的 是 ， 集 群 的 定义 尚未 定型 ， 许 多 商业 软件 对 什么 是 集群 系统 有 不 同 的 定义 ， 
对 什么 形式 的 集群 更 好 有 不 同 的 理解 。 较 为 公认 的 定义 是 ， 集 群 计算 机 共享 存储 ， 并 且 采 用 
LAN (Local Area Network， 局 域 网 ) 连接 或 更 快 的 内 部 连接 ， 如 InfiniBand。 

集群 通常 用 于 提供 高 可 用 性 (high availability) 服务 ， 这 意味 着 即使 集群 中 的 一 个 或 多 
个 系统 出 错 ， 仍 可 继续 提供 服务 。 一 般 来 说 ， 通 过 在 系统 中 增加 一 定 宛 余 ， 可 获取 高 可 用 
性 。 每 个 集群 节点 都 执行 集群 软件 层 ， 以 监视 (通过 局 域 网 ) 一 个 或 多 个 其 他 节点 。 如 果 被 
监视 的 机 器 失效 ， 那 么 监视 机 器 能 够 取代 存储 的 拥有 权 ， 并 重新 启动 在 失效 机 器 上 运行 的 应 
用 程序 。 应 用 程序 的 用 户 和 客户 只 会 感到 短暂 的 服务 中 止 。 

集群 可 以 是 对 称 的 ， 也 可 以 是 非 对称 的 。 对 于 非 对 称 集群 (asymmetric clustering)， 一 台 
机 器 处 于 热 备 份 模式 〈hot-standby mode)， 而 另 一 台 运 行 应 用 程序 。 热 备份 主机 只 监视 活动 
服务 器 。 如 果 活 动 服务 器 失效 ， 那 么 热 备份 主机 变 成 活动 服务 器 。 对 于 对 称 集群 (symmetric 
clustering)， 两 个 或 多 个 主机 都 运行 应 用 程序 ， 并 互相 监视 。 由 于 充分 使 用 现 有 硬件 ， 当 有 
多 个 应 用 程序 可 供 执行 时 ， 这 种 结构 更 为 高 效 。 

每 个 集群 由 通过 网 络 相连 的 多 个 计算 机 系统 组 成 ， 也 可 提供 高 性 能 计算 (high- 
performance computing) 环境 。 每 个 集群 的 所 有 计算 机 可 以 并 发 执行 一 个 应 用 程序 ， 因 此 与 单 
处 理 器 和 SMP 系统 相 比 ， 这 样 的 系统 能 够 提供 更 为 强大 的 计算 能 力 。 当 然 ， 这 种 应 用 程序 应 
当 专 门 编写 ， 才 能 利用 集群 。 这 种 技术 称 为 并 行 计 算 ( parallelization)， 即 将 一 个 程序 分 成 多 
个 部 分 ， 而 每 个 部 分 可 以 并 行 运 行 在 计算 机 或 集群 计算 机 的 各 个 核 上 。 通 常 ， 这 类 应 用 中 的 
每 个 集群 节点 解决 部 分 问题 ， 而 所 有 节点 的 计算 结果 合并 在 一 起 ， 以 便 形成 最 终 解决 方案 。 

其 他 形式 的 集群 还 有 并 行 集群 和 WAN (Wide-Area Network) 集群 。 并 行 集群 允许 多 个 
主机 访问 共享 存储 的 同一 数据 。 由 于 大 多 数 操作 系统 并 不 支持 多 个 主机 同时 访问 数据 ， 并 行 
集群 通常 需要 由 专门 软件 或 专门 应 用 程序 来 完成 。 例 如 ，Oracle Real Application Cluster 就 
是 一 种 可 运行 在 并 行 集群 上 的 、 专 用 的 Oracle 数据 库 。 每 个 机 器 都 运行 Oracle， 而 且 软 件 
层 跟踪 共享 磁盘 的 访问 。 每 台 机 器 对 数据 库 内 的 所 有 数据 都 可 以 完全 访问 。 为 了 提供 这 种 共 
享 访问 ， 系 统 应 当 针对 文件 访问 加 以 控制 与 加 锁 ， 以 便 确保 没有 冲突 操作 。 有 的 集群 技术 包 
括 了 这 种 通常 称 为 分 布 锁 管 理 器 (Distributed Lock Manager, DLM) 的 服务 。 


Beowulf 集群 

Beowulf 集群 的 设计 用 于 解决 高 性 能 的 计算 任务 。 每 个 Beowulf 集群 由 商用 硬件 (如 
个 大 计算 机 )， 通 过 简单 的 LAN 而 连 在 一 起 。 这 种 集群 无 需 特 定 软件 包 ， 每 个 节点 采用 开 
源 软 件 库 来 通信 。 因 此 每 个 Beowulf 集群 的 构成 方法 有 很 多 。 通 常 ， 每 个 Beowulf 计算 
节点 都 运行 Linux 操作 系统 。 由 于 并 不 要 求 专门 硬件 而 只 采用 免费 的 开源 软件 ， 构 成 这 种 
高 性 能 计算 的 集群 更 为 经 济 。 实 际 上 ， 有 的 Beowulf 集群 采用 数 百 台 遗 弃 的 计算 机 ， 以 便 
解决 大 运算 是 的 科学 计算 问题 。 
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集群 技术 发 展 迅 速 。 有 的 集群 产品 支持 数 十 个 系统 ， 而 且 集群 节点 也 可 分 开 数 公里 之 
远 。 存 储 域 网 ( Storage-Area Network, SAN) 的 出 现 也 改进 了 集群 性 能 ; 如 12.3.3 节 所 述 ， 
SAN 可 让 许多 系统 访问 同一 存储 池 。SAN 可 以 存储 应 用 程序 和 数据 ， 集 群 软件 可 将 应 用 程 
序 交 给 SAN 的 任何 主机 来 执行 。 如 果 主 机 出 错 ， 那 么 其 他 主机 可 以 接管 过 来 。 对 于 数据 库 
集群 ， 数 十 个 主机 可 以 共享 同一 数据 库 ， 从 而 大 大 提升 了 性 能 和 可 用 性 。 图 1-8 显示 了 一 个 
集群 的 通用 结构 。 


1.4 ”操作 系统 的 结构 


我 们 已 讨论 了 计算 机 系统 的 基本 组 成 和 体系 结构 ， 现 在 讨论 操作 系统 。 操 作 系 统 为 执行 
程序 而 提供 环境 。 操 作 系统 可 以 通过 许多 不 同方 式 来 构建 ， 因 此 内 部 组 织 差 异 很 大 。 不 过 ， 
它们 也 有 许多 共同 点 ， 这 里 将 会 加 以 讨论 。 

操作 系统 最 重要 的 一 点 是 具有 多 道 程序 能 力 。 一 般 来 说 ， 单 个 程序 并 不 能 让 CPU 和 1/0 
设备 始终 忙碌 。 单 个 用 户 通 常 具 有 多 个 运行 程序 。 多 道 程 序 设计 ( multiprogramming) 通过 
安排 作业 (编码 与 数据 ) 使 得 CPU 总 有 一 个 执行 作业 ， 从 而 提高 CPU 利用 率 。 

操作 系统 在 内 存 中 同时 保存 多 个 任务 (图 1-9)。 由 于 主 存 太 小 不 能 容纳 所 有 作业 ， 因 
此 这 些 作 业 首 先 保存 在 磁盘 的 作业 池 (job pool) 上 。 该 作业 池 包 括 磁盘 上 的 、 等 待 分 配 内 存 
的 所 有 进程 。 





最 大 值 
图 1-8 通用 集群 结构 图 1-9 多 道 程序 系统 的 内 存 分 布 





内 存 的 作业 集 为 作业 池 的 作业 集 的 一 个 子 集 。 从 内 存 的 作业 集中 ， 操 作 系 统 可 以 选择 
执行 一 个 作业 。 最 终 ， 该 作业 可 能 需要 等 待 某 个 任务 ， 如 IO 操作 的 完成 。 对 于 非 多 道 程序 
系统 ，CPU 就 会 空闲 ; 而 对 于 多 道 程序 系统 ，CPU 就 会 简单 切换 到 另 一 个 作业 ， 以 便 执行 。 
当 该 作业 需要 等 待 时 ，CPU 会 切换 到 另 一 个 作业 ， 等 等 。 最 终 ， 第 一 个 作业 完成 等 待 并 重 
新 获得 CPU。 只 要 有 一 个 任务 可 以 执行 ，CPU 就 不 会 空闲 。 

这 种 做 法 在 日 常生 活 中 也 常见 。 例 如 ， 一 个 律师 在 一 段 时间 内 不 只 为 一 个 客户 工作 。 当 
一 个 案件 需要 等 待 审 判 或 需要 准备 文件 时 ,该 律师 可 以 处 理 男 一 个 案件 。 如 果 有 足够 多 的 客 
户 ， 那 么 他 就 决 不 会 因 没 有 工作 要 做 而 空闲 。 

多 道 程序 系统 提供 了 一 个 环境 ， 以 便 充分 使 用 各 种 系统 资源 (如 CPU、 内 存 、 外 设 )， 
但 是 没有 提供 用 户 与 计算 机 系统 的 交互 。 分 时 系统 (time sharing) (或 多 任务 multitasking) ) 
是 多 道 程序 设计 的 自然 延伸 。 对 于 分 时 系统 ,虽然 CPU 还 是 通过 切换 作业 来 执行 多 个 作业 ， 
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但 是 由 于 切换 频率 很 高 ， 用 户 可 以 在 程序 运行 时 与 其 交互 。 

分 时 系统 要 求 计 算 机 系统 是 可 交互 (interactive) 的 ， 以 便 用 户 与 系统 直接 通信 。 用 户 通 
过 输入 设备 ， 如 键盘 、 鼠 标 、 和 触摸 板 、 和 触摸 屏 等 向 操作 系统 或 程序 发 出 指令 ， 并 等 待 输出 设 
备 的 即时 结果 。 相 应 地 ， 响 应 时 间 (response time) 应 当 较 短 ， 通 常 小 于 1 秒 。 

分 时 操作 系统 允许 许多 用 户 同时 共享 一 台 计算 机 。 由 于 分 时 系统 的 每 个 动作 或 命令 往往 
较 短 ， 因 而 每 个 用 户 只 需 少 量 CPU 时 间 。 随 着 系统 从 一 个 用 户 快速 切换 到 另 一 个 用 户 ， 每 
个 用 户 都 会 感到 整个 系统 只 为 自己 所 用 ， 尽 管 它 事实 上 为 许多 用 户 所 共享 。 

分 时 操作 系统 采用 CPU 调度 和 多 道 程序 设计 ， 为 每 个 用 户 提 供 一 小 部 分 的 分 时 计算 
机 资源 。 每 个 用 户 至 少 有 一 个 程序 在 内 存 中 。 加 载 到 内 存 并 执行 的 程序 ， 通 常 称 为 进程 
( process)。 当 进程 执行 时 ， 它 通常 在 执行 较 短 的 一 段 时 间 后 ， 要么 完成 ,要么 需要 进行 1/ 
oE. VO 可 以 是 交互 的 ， 即 输出 是 到 用 户 显 示 器 ， 输 入 来 自用 户 键盘 、 鼠 标 或 其 他 设 
备 。 由 于 交互 IO 通常 按 人 类 速度 (people speed) 来 进行 ， 因 此 可 能 需要 很 长 时 间 完 成 。 例 
如 ， 输 入 通常 受 限 于 用 户 打字 速度 ， 每 秒 7 个 字符 对 人 类 来 说 可 能 很 快 ， 但 是 对 计算 机 来 说 
太 慢 了 。 在 用 户 进行 交互 输入 时 ， 操 作 系 统 为 了 不 让 CPU 空闲 ， 会 将 CPU 切换 到 其 他 用 户 
程序 。 

分 时 系统 和 多 道 程序 需要 在 内 存 中 同时 保存 多 个 作业 。 如 果 有 多 个 作业 可 以 加 载 到 内 
存 ， 同 时 内 存 太 小 而 不 能 容纳 所 有 这 些 作 业 ， 那 么 系统 就 应 做 出 选择 。 这 个 决定 涉及 作业 调 
Æ (job scheduling)， 将 在 第 5 章 介 绍 。 操 作 系 统 从 作业 池 中 选中 一 个 作业 ， 并 将 它 调 人 内 
存 以 便 执行 。 内 存 同时 保存 多 个 程序 ， 这 需要 一 定形 式 的 内 存 管理 ， 这 将 在 第 8 章 和 第 9 章 
讨论 。 另 外 ， 如 果 有 多 个 任务 同时 等 待 执行 ， 那 么 系统 应 当做 出 选择 。 做 出 这 样 的 决策 称 为 
CPU 调度 (CPU scheduling)， 这 也 将 在 第 5 章 讨论 。 最 后 ， 在 多 个 作业 并 发 执行 时 ， 操 作 
系统 的 各 个 阶段 ， 如 进程 调度 、 磁 盘 和 内 存 管理 ， 应 能 限制 作业 之 间 的 互相 影响 。 这 些 讨论 
贯穿 本 书 。 

对 于 分 时 系统 ， 操 作 系 统 必须 确保 合理 的 响应 时 间 。 这 有 时 可 以 通过 交换 (swapping) 
来 得 到 ， 交 换 可 将 进程 从 磁盘 调 入 内 存 ， 也 可 将 进程 从 内 存 调 到 磁盘 。 不 过 ， 虚 拟 内 存 
( virtual memory) 是 实现 合理 响应 时 间 的 更 为 常用 的 一 种 方法 ， 虚 拟 内 存 允 许 一 个 执行 作业 
不 必 完 全 在 内 存 中 (第 9 章 )。 虚 拟 内 存 的 主要 优点 是 ， 用 户 可 执行 比 物理 内 存 physical 
memory) 大 的 程序 。 再 者 ， 它 将 内 存 抽象 成 一 个 庞大 的 、 统 一 的 存储 数组 ， 将 用 户 理解 的 
逻辑 内 存 (logical memory) 与 真正 的 物理 内 存 区 分 开 来 。 这 种 安排 使 得 程序 员 不 受 内 存 空 
间 的 限制 。 

分 时 系统 也 应 提供 文件 系统 (第 10 章 和 第 12 章 )。 文 件 系统 驻 留 在 一 组 磁盘 上 ， 因 此 
也 应 提供 磁盘 管理 (第 12 章 )。 另 外 ， 分 时 系统 需要 提供 机 制 ， 以 便 保 护 资源 并 防止 不 当 使 
用 (第 14 章 )。 为 了 确保 有 序 执 行 ， 系 统 必 须 提 供 机 制 ， 以 便 实现 作业 的 同步 和 通信 (第 6 
章 ); 它 也 可 确保 作业 不 会 进入 死 锁 ， 进 而 永远 互相 等 待 (第 7 章 )。 


1.5 ”操作 系统 的 执行 


如 前 所 述 ， 现 代 操 作 系 统 是 中 断 驱动 ( interrupt driven) 的 。 如 果 没 有 进程 需要 执行 ， 
没有 IO 设备 需要 服务 ， 而 且 没 有 用 户 需 要 响应 ， 那 么 操作 系统 会 静 静 地 等 待 某 个 事件 的 发 
生 。 事 件 总 是 由 中 断 或 陷阱 引起 的 。 陷 阱 (trap) (或 异常 (exception)) 是 一 种 软件 生成 的 中 
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断 ， 或 源 于 出 错 (如 除数 为 零 或 无 效 存储 访问 )， 或 源 于 用 户 程 序 的 特定 请 求 (执行 操作 系统 
的 某 个 服务 )。 这 种 操作 系统 的 中 断 特性 规定 了 系统 的 通用 结构 。 对 于 每 种 中 断 ， 操 作 系统 
有 不 同 代码 段 来 处 理 。 中 断 服务 程序 用 于 处 理 中 断 。 

由 于 操作 系统 和 用 户 共享 计算 机 系统 的 硬件 和 软件 ， 需 要 确保 用 户 程序 的 出 错 仅 仅 影 
响 自 己 。 由 于 共享 ， 一 个 程序 错误 (bug) 可 能 会 对 多 个 进程 造成 不 利 的 影响 。 例 如 ， 如 
果 一 个 进程 陷入 死 循环 ， 那 么 这 个 死 循环 可 能 阻止 许多 其 他 进程 的 正确 运行 。 多 道 程序 系 
统 可 能 出 现 更 多 微妙 错误 ， 一 个 错误 程序 可 能 修改 另 一 程序 另 一 程序 数据 甚至 操作 系统 
本 身 。 

如 果 对 这 些 错误 不 加 以 预防 ， 那 么 计算 机 只 能 一 次 执行 一 个 进程 ， 否 则 所 有 输出 都 值 
得 怀疑 。 操 作 系 统 的 正确 设计 必须 确保 错误 程序 (或 恶意 程序 ) 不 会 造成 其 他 程序 的 错误 
执行 。 


1.5.1 双重 模式 与 多 重 模式 的 执行 


为 了 确保 操作 系统 的 正确 运行 ， 必 须 区 分 操作 系统 代码 和 用 户 代码 的 执行 。 大 多 数 计算 
机 系统 采用 硬件 支持 ， 以 便 区 分 各 种 执行 模式 。 

至 少 需要 两 种 单独 运行 模式 : 用 户 模 式 (user mode) 和 内 核 模 式 (kernel mode) (也 称 为 
监视 模式 (supervisor mode)、 系 统 模式 (system mode) 或 特权 模式 (privileged mode) ) 。 计 
算 机 硬件 可 以 通过 一 个 模式 位 (mode bit) 来 表示 当前 模式 : 内 核 模 式 (0) 和 用 户 模 式 (1)。 
有 了 模式 位 ， 就 可 区 分 为 操作 系统 执行 的 任务 和 为 用 户 执行 的 任务 。 当 计算 机 系统 执行 用 户 
应 用 时 ， 系 统 处 于 用 户 模 式 。 然 而 ， 当 用 户 应 用 通过 系统 调用 ， 请 求 操作 系统 服务 时 ， 系 统 
必须 从 用 户 模式 切换 到 内 核 模 式 ， 以 满足 请 求 ， 如 图 1-10 所 示 。 正 如 将 会 看 到 的 ， 这 种 架 
构 改 进 也 可 用 于 系统 操作 的 许多 其 他 方面 。 






| 用户 进程 执行 。 国 调 用 系统 调用 从 系统 调用 返回 | | (模式 位 = 1) 


用 户 模式 
(模式 位 =0) 


图 1-10 用户 模 式 到 内 核 模 式 的 转换 


当 系 统 引 导 时 ， 硬 件 从 内 核 模 式 开 始 。 操 作 系 统 接着 加 载 ， 然 后 开始 在 用 户 模式 下 执行 
用 户 程 序 。 一 旦 有 陷阱 或 中 断 ， 硬 件 会 从 用 户 模式 切换 到 内 核 模式 (即将 模式 位 的 状态 设 为 
0)。 因 此 ， 每 当 操作 系统 能 够 控制 计算 机 时 ， 它 就 处 于 内 核 模 式 。 在 将 控制 交 给 用 户 程 序 
前 ， 系 统 会 切换 到 用 户 模 式 〈 将 模式 位 设 为 1)。 

双重 模式 执行 提供 保护 手段 ， 以 便 防 止 操作 系统 和 用 户 程序 受到 错误 用 户 程序 的 影响 。 
这 种 防护 实现 为 : 将 可 能 引起 损害 的 机 器 指令 作为 特权 指令 (privileged instruction)， 并 且 硬 
件 只 有 在 内 核 模 式 下 才 人 允许 执行 特权 指令 。 如 果 在 用 户 模式 下 试图 执行 特权 指令 ， 那 么 硬件 
并 不 执行 该 指令 ， 而 是 认为 该 指令 非法 ， 并 将 其 以 陷阱 形式 通知 操作 系统 。 
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切换 到 用 户 模式 的 指令 为 特权 的 ， 其 他 特权 的 例子 包括 IO 控制 、 定 时 器 管理 和 中 断 管 
理 等 。 许 多 其 他 特权 指令 在 本 书 其 他 部 分 也 会 讨论 到 。 

模式 概念 可 以 扩展 ， 从 而 超过 两 个 ， 这 样 CPU 在 设置 和 检测 模式 时 ， 就 会 用 到 多 个 位 。 
支持 虚拟 化 (virtualization) 技术 的 CPU 有 一 种 单独 模式 ， 用 于 表示 虚拟 机 管理 器 ( Virtual 
Machine Manager, VMM) 是 否 正 在 控制 系统 。 这 种 模式 的 特权 要 多 于 用 户 模式 ， 但 少 于 内 
核 模 式 。 这 种 特权 模式 可 以 改变 CPU 状态 ， 以 便 创 建 和 管理 虚拟 机 。 有 了 时， 不 同 的 内 核 组 
件 也 会 使 用 不 同 模式 。 需 要 注意 的 是 ， 除 了 模式 外 ，CPU 设计 人 员 也 可 采用 其 他 方式 来 区 
分 执行 特权 。 例 如 ，Intel 64 系列 的 CPU 有 四 种 特权 级 别 (privilege level) 并 支持 虚拟 化 ， 
但 是 没有 一 个 特定 的 虚拟 化 模式 。 

现在 看 一 看 计算 机 系统 的 指令 执行 的 生命 周期 。 最 初 ， 操 作 系 统 进行 控制 ， 这 时 指令 执 
行 在 内 核 模式 。 当 控制 转交 到 一 个 用 户 应 用 时 ， 模 式 也 设置 为 用 户 模 式 。 最 终 ， 通 过 中 断 、 
陷阱 或 系统 调用 ， 控 制 又 返回 到 操作 系统 。 

系统 调用 为 用 户 程序 提供 手段 ， 以 便 请 求 操 作 系 统 完成 某 些 特权 任务 。 系 统 调用 可 有 多 
种 方式 ， 取 决 于 底层 处 理 器 提供 的 功能 。 不 管 哪 种 ， 它 都 是 进程 请 求 操作 系统 执行 功能 的 方 
法 。 系 统 调 用 通常 会 陷 人 中 断 向 量 的 某 个 指定 位 置 。 这 一 般 可 由 通用 trap 指令 来 完成 ， 不 
过 也 有 的 系统 (如 MIPS 系列 ) 由 专用 syscall 指令 来 完成 系统 调用 。 

当 要 执行 系统 调用 时 ， 硬 件 通常 将 它 作为 软件 中 断 。 控 制 通过 中 断 向 量 转 到 操作 系统 的 
中 断 服务 程序 ， 并 且 模 式 位 也 设 为 内 核 模 式 。 系 统 调用 服务 程序 是 操作 系统 的 一 部 分 。 内 核 
检查 中 断 指 令 ， 判 断 发 生 了 什么 系统 调用 ; 参数 表示 用 户 程 序 请 求 何 种 服务 。 请 求 所 需 的 其 
他 信息 可 以 通过 寄存 器 、 堆 栈 或 内 存 〈 内 存 指 针 也 可 通过 寄存 器 传递 ) 来 传递 。 内 核 首 先 验 
证 参数 是 否 正 确 和 合法 ,然后 执行 请 求 ， 最 后 控制 返回 到 系统 调用 之 后 的 指令 。2.3 节 将 更 
加 详细 地 描述 系统 调用 。 

如 果 双 重 模式 没有 硬件 支持 ， 则 操作 系统 会 有 严重 缺点 。 例 如 ，MS-DOS 是 为 Intel 
8088 体系 结构 而 编写 的 ， 它 没有 模式 位 ， 因 而 没有 双重 模式 。 运 行 出 错 的 程序 可 以 通 
过 写 入 数据 而 清除 整个 操作 系统 ， 多 个 程序 可 以 同时 写 人 同一 设备 ， 进 而 可 能 引起 灾 
难 结果 。 现 今 的 Intel CPU 确实 提供 双重 模式 执行 。 因 此 ， 大 多 数 的 当代 操作 系统 ， 如 
Microsoft Windows 7, UNIX 和 Linux ， 都 利用 了 双重 模式 的 优点 ， 并 为 操作 系统 提供 了 
更 强 保护 。 

一 旦 硬件 保护 到 位 ， 就 可 检测 模式 错误 。 这 些 错误 通常 由 操作 系统 处 理 。 如 果 一 个 用 户 
程序 出 错 ， 如 试图 执行 非法 指令 或 者 访问 不 属于 自己 的 地 址 空间 内 存 ， 则 通过 硬件 陷 到 操作 
系统 。 陷 阱 如 同 中 断 一 样 ， 通 过 中 断 向 量 可 将 控制 转 到 操作 系统 。 当 一 个 程序 出 错时 ， 可 由 
操作 系统 来 异常 终止 。 这 种 情况 的 处 理 代码 与 用 户 请 求 的 异常 终止 一 样 。 操 作 系统 会 给 出 一 
个 适当 的 出 错 信息 ， 并 倒 出 (dump) 程序 内 存 。 倒 出 内 存 信息 通常 写 到 文件 ， 这 样 用 户 或 程 
序 员 可 检查 它 ， 纠 正 错 误 并 重新 启动 程序 。 


1.5.2 ”定时 器 


操作 系统 应 该 维持 控制 CPU， 防 止 用 户 程序 陷入 死 循 环 ， 或 不 调用 系统 服务 并 且 不 将 
控制 返 给 操作 系统 。 为 了 实现 这 一 目标 ， 可 以 使 用 定时 器 ( timer)。 定 时 器 可 设置 为 在 指定 
周期 后 中 断 计 算 机 。 指 定 周期 可 以 是 固定 的 (例如 ，1/60s) 或 可 变 的 (例如 ，1ms ~ 1s). 
可 变 定时 器 (variable timer) 一 般 通 过 一 个 固定 速率 的 时 钟 和 计数 器 来 实现 。 操 作 系 统 设 置 
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计数 器 。 每 次 时 钟 滴答 时 ， 计 数 器 都 要 递减 。 当 计数 器 的 值 为 0 时 ， 就 会 产生 中 断 。 例 如 ， 
对 于 10 位 的 计数 器 和 lms 精度 的 时 钟 ， 可 按时 间 步 长 为 lms 和 时 间 间 隔 为 lms ~ 1024ms 
来 产生 中 断 。 

在 将 控制 交 到 用 户 之 前 ， 操 作 系 统 确保 定时 器 已 设置 好 以 便 产 生 中 断 。 当 定时 器 中 断 
时 ， 控 制 自动 转 到 操作 系统 ， 而 操作 系统 可 以 将 中 断 作为 致命 错误 来 处 理 ， 也 可 以 给 予 用 户 
程序 更 多 时 间 。 当 然 ， 用 于 修改 定时 器 的 指令 是 特权 的 。 

定时 器 可 以 防止 用 户 程序 运行 过 长 。 一 种 简单 方法 是 ， 采 用 程序 允许 执行 的 时 间 来 初 
始 化 计数 器 。 例 如 ， 能 运行 7 分 钟 的 程序 可 以 将 计数 器 设置 为 420。 定 时 器 每 秒 产 生 一 次 中 
断 ， 计 数 器 相应 递减 1。 只 要 计数 器 的 值 为 正 ， 控 制 就 返回 到 用 户 程序 。 当 计数 器 的 值 为 负 
时 ， 操 作 系 统 就 会 中 止 程序 执行 ， 因 为 它 超过 了 设置 的 时 间 限 制 。 


1.6 ”进程 管理 

在 未 被 CPU 执行 之 前 ， 程 序 做 不 了 任何 事 。 如 前 所 述 ， 执 行 的 程序 称 为 进程 。 分 时 系 
统 的 用 户 程 序 (如 编译 器 ) 就 是 进程 ,PC 的 单个 用 户 运行 的 字 处 理 程序 也 是 进程 。 系 统 任务 ， 
如 将 输出 发 到 打印 机 ， 也 可 以 是 进程 (或 至 少 是 进程 的 一 部 分 )。 现 在 ， 进 程 可 以 作为 作业 
或 分 时 系统 程序 ， 但 是 以 后 进程 的 概念 将 会 更 广 。 正 如 第 3 章 所 述 ， 进 程 可 以 通过 系统 调用 
来 创建 子 进程 以 并 发 执行 。 

进程 为 了 完成 任务 ， 需 要 一 定 的 资源 ， 包 括 CPU 时 间 、 内 存 、 文 件 、LO 设备 等 。 这 
些 资源 可 以 在 进程 创建 时 赋予 ， 也 可 以 在 执行 进程 时 分 配 。 除 了 创建 时 得 到 的 各 种 物理 和 由 
辑 资 源 外 ， 进 程 还 可 以 接受 传输 过 来 的 各 种 初始 化 数据 (输入 )。 例 如 ， 考 虑 这 样 一 个 进程 ， 
它 要 在 终端 或 者 屏幕 上 显示 文件 状态 ， 而 且 需 要 有 一 个 文件 名 作为 输入 。 文 件 名 的 获得 和 信 
息 的 终端 显示 ， 可 以 通过 适当 指令 和 系统 调用 来 进行 。 当 进程 中 止 时 ， 操 作 系 统 就 会 收回 所 
有 可 再 利用 的 资源 。 

需要 强调 的 是 ， 程 序 本 身 不 是 进程 ， 程 序 是 个 被 动 实 体 (passive entity)， 如 同 存 储 在 
磁盘 上 的 文件 内 容 ， 而 进程 是 个 主动 实体 (active entity)。 单 线程 进程 有 一 个 程序 计数 器 
(program counter)， 指 定 了 下 一 个 所 要 执行 的 指令 (第 4 章 讨论 线程 )。 这 样 一 个 进程 的 执 
行 应 是 顺序 的 。CPU 一 个 接着 一 个 地 执行 进程 的 指令 ， 直 至 进程 完成 。 再 者 ， 在 任何 时 候 ， 
每 个 进程 最 多 只 能 执行 一 条 指令 。 因 此 ， 尽 管 两 个 进程 可 能 与 同一 个 程序 相关 联 ， 然 而 这 两 
个 进程 都 有 各 自 的 执行 顺序 。 多 线程 进程 有 多 个 程序 计数 器 ， 每 一 个 指向 下 一 个 给 定 线程 需 
要 执行 的 指令 。 

进程 是 系统 的 工作 单元 。 系 统 由 多 个 进程 组 成 ， 其 中 有 的 是 操作 系统 进程 (执行 系统 代 
码 )， 其 他 的 是 用 户 进程 (执行 用 户 代码 )。 所 有 这 些 进程 都 会 并 发 执行 ， 例 如 通过 在 单 CPU 
上 采用 多 路 复 用 来 实现 。 

操作 系统 负责 进程 管理 的 以 下 活动 : 

o 在 CPU 上 调度 进程 和 线程 

© 创建 和 删除 用 户 进 程 和 系统 进程 

o 挂 起 和 重启 进程 

o 提供 进程 同步 机 制 

o 提供 进程 通信 机 制 
第 3 章 到 第 6 章 讨论 进程 管理 技术 ， 
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17 内存 管 理 


正如 1.2.2 节 所 述 ， 内 存 是 现代 计算 机 系统 执行 的 中 心 。 内 存 是 一 个 大 的 字 节 数组 ， 大 
小 从 数 十 万 到 数 十 亿 。 每 个 字 节 都 有 地 址 。 内 存 是 个 快速 访问 的 数据 仓库 ， 并 为 CPU 和 LO 
设备 所 共享 。 中 央 处 理 器 在 获取 指令 周期 时 从 内 存 中 读 取 指令 ， 而 在 获取 数据 周期 时 对 内 存 
数据 进行 读 写 (EB - 诺 依 曼 架 构 上 )。 内 存 一 般 是 CPU 所 能 直接 寻 址 和 访问 的 、 唯 一 的 、 
大 容量 的 存储 器 。 例 如 ， 如 果 CPU 需要 处 理 磁 盘 数 据 ， 那 么 这 些 数据 必须 首先 通过 CPU 产 
生 的 IO 调用 传 到 内 存 。 同 样 ， 如 果 CPU 需要 执行 指令 ， 那 么 这 些 指令 必须 在 内 存 中 。 

如 果 一 个 程序 需要 执行 ， 那么 它 必须 映射 到 绝对 地 址 ， 并 且 加 载 到 内 存 。 随 着 程序 执 
行 ， 进 程 可 以 通过 产生 绝对 地 址 来 访问 内 存 的 程序 指令 和 数据 。 最 后 ， 程 序 终止 ， 它 的 内 存 
空间 得 以 释放 ， 这 样 下 一 个 程序 可 以 加 载 并 得 以 执行 。 

为 改进 CPU 的 利用 率 和 用 户 的 计算 机 响应 速度 ， 通 用 计算 机 应 在 内 存 中 保留 多 个 程序 ， 
这 就 需要 内 存 管理 。 内 存 管理 的 方案 有 许多 。 这 些 方 案 会 有 各 种 具体 方法 ， 所 有 特定 算法 的 
效率 取决 于 特定 情景 。 在 选择 某 个 特定 系统 的 内 存 管 理 方案 时 ， 必 须 考虑 许多 因素 ， 尤 其 是 
系统 的 硬件 设计 。 每 个 算法 都 要 求 特定 的 硬件 支持 。 

操作 系统 负责 内 存 管理 的 以 下 活动 : 

o 记录 内 存 的 哪 部 分 在 被 使 用 以 及 被 谁 使 用 。 

o 决定 哪些 进程 (或 其 部 分 ) 会 调 人 或 调 出 内 在 。 

e 根据 需要 分 配 和 释放 内 存 空间 。 

内 存 管理 技术 将 在 第 8 章 和 第 9 章 中 加 以 讨论 。 


1.8 存储 管理 


为 了 方便 计算 机 用 户 ， 操 作 系统 提供 信息 存储 的 统一 逻辑 视图 。 操 作 系统 对 存储 设备 的 
物理 属性 进行 了 抽象 ， 并 定义 了 逻辑 存储 单元 ， 即 文件 〈file)。 操 作 系统 映射 文件 到 物理 媒 
介 ， 并 通过 存储 设备 来 访问 文件 。 


1.8.1 文件 系统 管理 


文件 管理 是 操作 系统 最 明显 的 组 件 之 一 。 计 算 机 可 在 多 种 类 型 的 物理 介质 上 存储 信息 ， 
最 常用 的 有 磁盘 、 光 盘 和 磁带 等 。 每 种 介质 都 有 各 自 的 特点 与 物理 组 织 。 每 个 介质 都 由 一 个 
设备 来 控制 ， 如 磁盘 驱动 器 或 磁带 驱动 器 等 。 它 们 都 有 自己 的 特点 ， 包 括 访 问 速度 、 容 量 、 
数据 传输 率 和 访问 方法 (顺序 或 随机 ) 等 。 

文件 是 创建 者 定义 的 相关 信息 组 合 。 通 常 ， 文 件 内 容 为 程序 ( 源 程 序 和 目标 程序 ) 和 数 
据 。 数 据 文件 可 以 是 数值 的 、 字 符 的 、 字 符 数值 的 或 二 进 制 的 等 。 文 件 可 以 没有 格式 (例如 
文本 文件 )， 或 有 严格 格式 (例如 固定 的 域 )。 显 然 ， 文件 这 一 概念 是 极为 广泛 的 。 

操作 系统 管理 大 容量 存储 介质 ， 如 磁盘 和 磁带 ， 并 控制 它们 ， 以 实现 文件 这 一 抽象 概 
念 。 再 者 ， 为 了 方便 使 用 ， 文 件 可 组 织 成 目录 。 最 后 ， 当 多 个 用 户 访问 文件 时 ， 需 要 控制 哪 
个 用 户 如 何 访问 文件 (例如 ， 读 、 写 、 附 加 )。 

操作 系统 负责 文件 管理 的 以 下 活动 : 

o 创建 和 删除 文件 。 

e 创建 和 删除 目录 ， 以 便 组 织 文件 。 
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o 提供 文件 和 目录 的 操作 原 语 。 

© 映射 文件 到 外 存 。 

© 备份 文件 到 稳定 ( 非 易 失 的 ) 存储 介质 。 
文件 管理 技术 将 在 第 10 章 和 第 11 章 中 加 以 讨论 。 


1.8.2 大 容量 存储 器 管理 


如 前 所 述 ， 由 于 内 存 太 小 不 能 容纳 所 有 数据 和 程序 ， 再 加 上 掉 电 会 失去 数据 ， 所 以 计算 
机 系统 应 该 提供 外 存 以 备份 内 存 。 大 多 数 现代 计算 机 系统 采用 硬盘 作为 主要 在 线 存储 介质 ， 
来 存储 程序 和 数据 。 大 多 数 程序 ， 如 编译 程序 、 汇 编程 序 、 字 处 理 器 、 编 辑 器 和 格式 化 程序 
等 ， 存 储 在 硬盘 上 ， 执 行 时 才 调 人 内 存 。 它 们 在 执行 时 将 硬盘 作为 处 理 的 起 源 和 终点 。 因 
此 ， 硬 盘 的 妥善 管理 对 计算 机 系统 尤为 重要 。 操 作 系统 负责 有 关 硬 盘 管 理 的 以 下 活动 : 

e 空闲 空间 管理 

© 存储 空间 分 配 

o 便 盘 调度 
由 于 外 存 使 用 频繁 ， 因 此 使 用 应 该 高 效 。 计 算 机 运行 的 最 终 速度 与 硬盘 子 系统 的 速度 和 管理 
该 子 系统 的 算法 有 很 大 关系 。 

虽然 有 的 存储 相 比 外 存 速度 更 慢 、 价 格 更 低 (或 许 容量 更 大 ), 但 是 也 有 许多 用 人 处， 如 备 
份 磁盘 的 数据 、 存 储 很 少 使 用 的 数据 、 保 存 长 期 的 档案 等 。 典 型 的 三 级 存储 (tertiary storage) 
设备 包括 : 磁带 驱动 器 及 其 磁带 、CD/DVD 驱动 器 及 光盘 等 。 这 些 介质 (磁带 和 光盘 ) 分 为 一 
次 写 多 次 读 (Write-Once Read-Many-times, WORM) 和 读 一 写 (Read-Write, RW). 

三 级 存储 对 系统 性 能 并 不 关键 ， 但 也 应 管理 好 。 有 的 操作 系统 直接 管理 ， 还 有 的 留 给 应 
用 程序 来 管理 。 操 作 系 统 的 功能 可 以 包括 : 安装 和 印 载 设备 媒介 ， 为 进程 互 斥 使 用 而 分 配 和 
释放 设备 ， 以 及 将 数据 从 二 级 存储 移动 到 三 级 存储 。 

二 级 和 三 级 存储 的 管理 技术 将 在 第 12 章 中 加 以 讨论 。 

18.3 高 速 缓存 

高 速 缓存 ( caching) 有 时 也 简称 为 缓存 ， 是 计算 机 系统 的 一 条 重要 原理 。 它 的 工作 原理 
如 下 : 信息 通常 保存 在 一 个 存储 系统 中 (如 内 存 )， 使 用 时 ， 它 会 被 临时 复制 到 更 快 存储 系 
统 ， 即 高 速 缓存 ; 当 需 要 特定 信息 时 ， 首 先 检查 它 是 否 处 于 高 速 缓存 ， 如 果 是 ， 可 以 直接 使 
用 高 速 缓存 的 信息 ， 如 果 和 否 ， 就 使 用 位 于 源 地 的 信息 ， 同 时 将 其 复制 到 高 速 缓存 以 便 下 次 
再 用 。 

另外 ， 可 编程 的 内 部 寄存 器 (如 索引 寄存 器 ) 为 内 存 提供 高 速 缓存 。 程 序 员 (或 编译 程 
FR) 通过 寄存 器 分 配 与 寄存 器 替换 的 算法 ， 决 定 哪 些 信息 应 存在 寄存 器 中 而 哪些 应 存在 内 
存 中 。 

还 有 的 高 速 缓存 完全 通过 硬件 实现 。 例 如 ， 大 多 数 系统 都 有 一 个 指令 的 高 速 缓存 ， 用 以 
保存 下 个 需要 执行 的 指令 。 如 没有 这 一 高 速 缓存 ，CPU 要 用 多 个 时 钟 周 期 才能 从 内 存 中 获 
得 指令 。 基 于 类 似 原因 ， 大 多 数 系统 在 存储 层次 结构 中 有 一 个 或 多 个 高 速 缓 存 。 本 书 并 不 关 
心 只 用 硬件 的 高 速 缓存 ， 这 是 因为 它们 不 受 操 作 系 统 控 制 。 

由 于 高 速 缓存 的 大 小 有 限 ， 因 此 高 速 缓存 管理 (cache management) 的 设计 就 很 重要 。 
慎重 选择 高 速 缓存 大 小 与 置换 策略 ， 可 以 极 大 提高 性 能 。 图 1-11 比较 了 大 型 工作 站 与 小 型 
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服务 器 的 存储 性 能 。 关 于 软件 控制 的 各 种 高 速 缓 存 的 置换 算法 ,将 在 第 9 章 中 加 以 讨论 。 





图 1-11 各 种 级 别 存储 的 性 能 


内 存 可 以 看 作 外 存 的 高 速 缓存 ， 这 是 因为 外 存 数 据 应 先 复制 到 内 存 以 便 使 用 ， 而 且 数据 
应 位 于 内 存 中 才 可 保存 到 外 存 。 永 久 驻 留 在 外 存 上 的 文件 系统 的 数据 ， 会 位 于 存储 层次 的 多 个 
层次 上 。 在 最 高 层 上 ， 操 作 系 统 可 在 内 存 中 保存 一 个 文件 系统 数据 的 高 速 缓存 。 另 外 ， 固 态 
盘 也 可 作为 高 速 存储 ， 并 可 通过 文件 系统 接口 来 访问 。 大 容量 的 外 存 为 磁盘 。 磁 盘存 储 又 通 
常 可 以 用 磁带 或 移动 磁盘 来 备份 数据 ， 以 防止 因 磁盘 损坏 造成 的 数据 丢失 。 有 的 系统 将 位 于 
磁盘 上 的 旧 文 件数 据 自动 备份 到 三 级 存储 ， 如 磁带 塔 ， 以 便 降 低 存储 费用 (参见 第 12 章 )。 

存储 层次 间 的 信息 移动 可 以 是 显 式 的 ， 也 可 以 是 隐 式 的 ， 这 取决 于 硬件 设计 和 操作 系统 
的 控制 软件 。 例 如 ， 高 速 缓存 到 CPU 或 寄存 器 的 数据 传递 ， 通 常 通过 硬件 完成 ， 无 需 操 作 
系统 干预 。 相 反 ， 磁 盘 到 内 存 的 数据 传递 通常 通过 操作 系统 控制 。 

在 层次 存储 结构 中 ， 同 一 数据 可 能 出 现在 存储 系统 的 不 同 层 次 上 。 例 如 ， 位 于 文件 B 的 
整数 A 需要 加 1， 而 文件 B 位 于 磁盘 。 加 1 操作 这 样 进行 : 先进 行 IO 操作 以 将 A 所 在 的 块 
HANE. ZJ, A 被 复制 到 高 速 缓存 和 内 部 寄存 器 。 这 样 ，A 的 副本 出 现在 多 个 地 方 : 磁盘 上 、 
内 存 中 、 高 速 缓存 中 、 内 部 寄存 器 中 ( 见 图 1-12 )。 一 旦 在 内 部 寄存 器 中 执行 加 法 后 ，A 的 
值 在 不 同 存储 系统 中 就 会 不 同 。 只 有 在 A 的 新 值 从 内 部 寄存 器 写 到 磁盘 时 ，A 的 值 才 会 一 样 。 





图 1-12 ”整数 A 从 磁盘 到 寄存 器 的 迁移 


对 于 每 次 只 有 一 个 进程 执行 的 计算 环境 ， 这 种 安排 没有 问题 ， 这 是 因为 所 访问 的 整 
数 A 是 位 于 层次 结构 的 最 高 层 的 副本 。 但 是 ， 对 于 多 任务 环境 ，CPU 会 在 多 个 进程 之 间 来 
回 切 换 ， 所 以 需要 十 分 并 慎 以 便 确 保 在 多 个 进程 访问 A 时 ， 每 个 进程 都 能 得 到 最 近 更 新 的 
A 值 。 

对 于 多 人 处 理 器 环境 ,情况 就 变 得 更 为 复杂 ， 这 时 每 个 CPU 不 仅 有 自己 的 内 部 寄存 器 ， 
而 且 还 有 本 地 的 高 速 缓存 ( 见 图 1-6 )。 对 于 这 种 环境 ，A 的 拷贝 可 能 出 现在 多 个 缓存 上 。 由 
于 多 个 CPU 可 以 并 行 执 行 ， 应 确保 位 于 一 个 高 速 缓存 的 A 值 的 更 新 ， 应 马上 反映 到 所 有 其 
他 A 所 在 的 高 速 缓存 。 这 称 为 高 速 缓存 一 致 性 (cache coherence)， 这 通常 是 硬件 问题 (在 操 
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作 系统 底下 处 理 )。 

对 于 分 布 式 环境 ， 这 种 情况 变 得 异常 复杂 。 在 这 种 情况 下 ， 同 一 文件 的 多 个 副本 (或 复 
制 ) 会 出 现在 不 同 场所 的 多 个 不 同 计算 机 上 。 由 于 各 个 副本 可 能 会 被 并 发 访问 和 更 新 ， 所 以 
应 该 确保 当 一 处 的 副本 被 更 新 时 ， 所 有 其 他 副本 应 尽 可 能 快 地 得 以 更 新 。 


1.8.4 IO 系统 


操作 系统 的 目的 之 一 是 为 用 户 隐 藏 具体 硬件 设备 的 特性 。 例 如 ,在 UNIX 系统 中 ，|/O 子 系 
统 (IO subsystem) 为 操作 系统 本 身 隐 藏 了 IO 设备 的 特性 。1/O 子 系统 包括 以 下 几 个 组 件 : 

o 包括 缓冲 、 高 速 缓存 和 假 脱 机 的 内 存 管理 组 件 。 

e 设备 驱动 器 的 通用 接口 。 

o 特定 硬件 设备 的 驱动 程序 。 
只 有 设备 驱动 程序 才能 知道 控制 设备 的 特性 。 

1.2.3 节 讨 论 了 ， 中 断 处 理 和 设备 驱动 程序 如 何 构造 高 效 的 IO 子 系统 。 第 13 章 将 会 讨 
论 VO 子 系统 如 何 提供 与 其 他 系统 组 件 的 接口 、 管 理 设备 、 传 输 数 据 以 及 检测 IO 完成 等 。 


1.9 保护 与 安全 


如 果 一 个 计算 机 系统 有 多 个 用 户 ， 并 且 允 许多 个 进程 并 发 执行 ， 那么 数据 访问 应 当 加 以 
控制 。 为 此 ， 可 以 通过 机 制 确保 只 有 经 过 操作 系统 授权 ， 进 程 才 可 使 用 相应 资源 ， 如 文件 、 
内 存 、CPU 及 其 他 资源 。 例 如 ， 内 存 寻 址 硬件 确保 一 个 进程 仅 可 在 自己 的 地 址 空间 内 执行 ， 
定时 器 确保 没有 进程 可 以 一 直 占 用 CPU 而 不 释放 它 。 设 备 控制 寄存 器 不 能 被 用 户 访问 ， 因 
而 保护 了 各 种 外 围 设备 的 完整 性 。 

因此 ,保护 (protection) 是 一 种 机 制 ， 用 于 控制 进程 或 用 户 访问 计算 机 系统 的 资源 。 这 
种 机 制 必须 提供 手段 ， 以 便 指定 控制 和 实施 控制 。 

通过 检测 组 件 子 系统 之 间接 口 的 差错 隐患 ， 保 护 可 以 提高 可 靠 性 。 接 口 错误 的 早期 检测 
通常 能 够 防止 已 发 生 故 障 的 子 系统 影响 其 他 正常 的 子 系统 。 一 个 未 受 保护 的 资源 无 法 抵御 未 
授权 的 或 不 胜任 的 用 户 使 用 (或 误 用 )。 支 持 保护 的 系统 提供 手段 ， 以 便 辨 别 授权 使 用 和 未 
授权 使 用 ,第 14 章 将 会 讨论 相关 内 容 。 

一 个 系统 可 以 拥有 足够 的 保护 ， 但 是 仍然 容易 出 错 和 发 生 不 当 访 问 。 例 如 ， 现 有 一 个 认 
证 (向 系统 标识 自己 的 手段 ) 信息 被 瓷 的 用 户 ， 他 的 数据 可 能 被 复制 或 删除 ， 尽 管 文件 和 内 
存 的 保护 仍 在 继续 。 防 止 系 统 不 受 外 部 或 内 部 的 攻击 是 安全 (security) 的 工作 。 这 些 攻击 的 
范围 很 广 ， 如 病毒 和 蠕虫 、 拒 绝 服 务 攻击 (用 尽 所 有 系统 资源 以 致 合 法 用 户 无 法 使 用 )、 身 
HMD. MAM (未 授权 的 系统 使 用 ) 等 。 为 阻止 这 些 攻击 ， 有 些 系统 让 操作 系统 来 完成 ， 
其 他 系统 让 策略 或 额外 软件 来 完成 。 随 着 安全 事件 的 急剧 增长 ， 操 作 系 统 安全 问题 的 研发 发 
Eii E 15 章 讨 论 安 全 。 

保护 和 安全 要 求 系统 能 够 区 分 所 有 用 户 。 大 多 数 的 操作 系统 采用 一 个 列表 ， 以 便 维护 用 
户 名 称 及 其 关联 用 户 标 识 (UserID, UID), 按照 Windows 的 说 法 ， 这 称 为 安全 ID (Secure 
ID，SID)。 这 些 数字 ID 对 每 个 用 户 来 说 是 唯一 的 ， 当 一 个 用 户 登 录 到 系统 时 ， 认 证 阶段 确 
定 用 户 的 合适 ID。 该 用 户 ID 与 所 有 该 用 户 的 进程 和 线程 相关 联 。 当 该 ID 需要 为 用 户 可 读 
时 ， 它 就 会 通过 用 户 名 称 列 表 而 转换 成 用 户 名 称 。 

有 些 环境 希望 区 分 用 户 集合 而 非 单个 用 户 。 例 如 ，UNIX 系统 的 某 个 文件 的 所 有 者 可 对 
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文件 进行 所 有 操作 ， 而 有 些 选 定 的 用 户 集合 只 能 读 取 文件 。 为 此 ， 需 要 定义 一 个 组 名 称 以 
及 属于 该 组 的 用 户 集 。 组 功能 的 实现 可 以 采用 一 个 系统 级 的 列表 ， 以 维护 组 名 称 和 组 标识 
( group identifier) 。 一 个 用 户 可 以 属于 一 个 或 多 个 组 ， 这 取决 于 操作 系统 的 设计 决策 。 用 户 
的 组 ID 也 包含 在 每 个 相关 的 进程 和 线程 中 。 

对 于 正常 系统 使 用 ， 用 户 ID 和 组 ID 就 足够 了 。 不 过 ， 用户 有 时 需要 升级 特权 
(escalate privilege)， 来 获得 某 个 活动 的 额外 许可 。 例 如 ， 用 户 可 能 需要 访问 某 个 受 限 设 
备 。 操 作 系统 提供 多 种 方法 ， 人 允许 升级 特权 。 例 如 , 在 UNIX 系统 中 ， 程 序 的 setuid 属性 允 
许 按 程 序 文件 所 有 者 的 用 户 ID 而 不 是 当前 的 用 户 ID 来 运行 该 程序 ， 该 进程 会 按 有 效 UID 
(effective UID) 运行 ， 直 至 它 关 掉 额 外 特权 或 终止 。 


1.10 “内核 数据 结构 


下 面 讨论 操作 系统 实现 的 一 个 核心 问题 : 系统 如 何 组 织 数 据 。 本 节 简 要 讨论 多 个 基本 数 
据 结构 ， 它 们 在 操作 系统 中 用 得 很 多 。 如 需 了 解 这 些 结构 (或 其 他 ) 的 更 多 细节 ， 可 以 阅读 
本 章 末尾 的 参考 文献 。 


1.10.1 列表、 堆栈 及 队列 


数组 是 个 简单 的 数据 结构 ， 它 的 元 素 可 被 直接 访问 。 例 如 ， 内 存 就 是 一 个 数组 。 如 果 
所 存 的 数据 项 大 于 一 字 节 ， 那 么 可 用 多 个 字 节 来 保存 数据 项 ， 并 可 按 项 码 x 项 大 小 (item 
number x item size) 来 寻 址 。 不 过 ， 如 何 保存 可 变 大 小 的 项 ?再 者 ， 如 何 删除 一 项 而 不 影响 
其 他 项 的 相对 位 置 ? 对 于 这 些 情况 ， 数 组 不 如 其 他 数据 结构 。 

在 计算 机 科学 中 ， 除 了 数组 ， 列 表 可 能 是 最 为 重要 的 数据 结构 。 不 过 ， 数 组 的 项 可 以 直 
接 访问 ， 而 列表 的 项 需要 按 特定 次 序 来 访问 。 即 列表 (list) 将 一 组 数据 表示 成 序列 。 实 现 这 
种 结构 的 最 常用 方法 是 链表 (linked list)， 项 与 项 是 链接 起 来 的 。 链 表 包 括 多 个 类 型 ; 

o 单 向 链表 (singly linked list) 的 每 项 指向 它 的 后 继 ， 如 图 1-13 Pras. 


data data data null 


,sd ee ee lt 


图 1-13 单 向 链表 
e 双向 链表 (doubly linked list) 的 每 项 指向 它 的 前 驱 与 后 继 ， 如 图 1-14 所 示 。 


data null data data data null 
Lad FY I | 


Li CF C 
图 1-14 双向 链表 


© 循环 链表 (circularly linked list) 的 最 后 一 项 指向 第 一 项 (而 不 是 设 为 null)， 如 图 1-15 


所 示 。 
data data data | ) data 
as a ee ee ee Lt 


图 1-15 循环 链表 
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链表 允许 不 同 大 小 的 项 ， 各 项 的 插入 与 删除 也 很 方便 。 链 表 的 使 用 有 一 个 潜在 缺点 : 在 
大 小 为 n 的 链表 中 ， 获 得 某 一 特定 项 的 性 能 是 线性 的 ， 即 0(n)， 这 是 由 于 在 最 坏 情况 下 需 
要 遍历 所 有 的 n 个 元 素 。 列 表 有 时 直接 用 于 内 核算 法 ， 不过， 更 多 的 是 用 于 构造 更 为 强大 的 
数据 结构 ， 如 堆栈 和 队列 等 。 

堆栈 (stack) 作为 有 序数 据 结构 ， 在 增加 和 删除 数据 项 时 采用 后 进 先 出 ( Last In First 
Out, LIFO) 的 原则 ， 即 最 后 增加 到 堆栈 的 项 是 第 一 个 被 删除 的 。 堆 栈 的 项 的 插入 和 删除 ， 
分 别称 为 压 入 (push) 和 弹出 (pop)。 操 作 系 统 在 执行 函数 调用 时 ， 经 常 采用 堆栈 。 当 调用 
消 数 时 ， 参 数 、 局 部 变量 及 返回 地 址 首先 压 人 堆栈 ; 当 从 函数 调用 返回 时 ， 会 从 堆栈 上 弹出 
这 些 项 。 

相反 、 队 列 (queue) 作为 有 序数 据 结构 ， 采 用 先进 先 出 (First in First Out, FIFO) 的 原 
则 : 删除 队列 的 项 的 顺序 与 搬入 的 顺序 一 致 。 日 常生 活 的 队列 样 例 有 很 多 ， 如 商店 客户 排队 
等 竺 结账 ， 汽 车 排队 等 竺 信号灯。 操作 系统 的 队列 也 有 很 多 ， 例 如 ， 送 交 打 印 机 的 作业 通常 
按 递交 顺序 来 打印 。 正 如 第 5 章 所 述 ， 等 待 CPU 的 任务 通常 按 队列 来 组 织 。 


1.10.2 树 


Bt (tree) 是 一 种 数据 结构 ， 可 以 表示 数据 层次 。 树 结构 的 
数据 值 可 按 父 - 子 关系 连接 起 来 。 对 于 一 般 树 ( general tree), (17) 
父 结 点 可 有 多 个 子 结 点 。 对 于 二 叉 树 (binary tree)， 父 结 点 最 
多 可 有 两 个 子 结 点 ， 即 左 子 结 点 (left child) MAFA (right (12 ) (3) 
child)。 二 叉 查 找 树 (binary search tree) 还 要 求 对 两 个 子 结 点 进 
THY, WMATA <A. B 1-16 为 一 个 二 又 查找 树 的 
例子 。 当 需要 对 一 个 二 又 查找 树 进行 查找 时 ， 最 坏 性 能 为 O(n) (6) (14) (40) 
(请 想 一 想 这 是 为 什么 )。 为 了 纠正 这 种 情况 ， 我 们 可 以 通过 算法 
来 创建 平衡 二 叉 查 找 树 (balanced binary search tree)。 这 样 ， 包 (2) 
含 n 个 项 的 树 最 多 只 有 1gn 层 ， 这 可 确保 最 坏 性 能 为 Olg 7). 图 1.16 二 又 查找 树 
在 5.7.1 节 中 ,我 们 将 会 看 到 ，Linux 在 CPU 调度 算法 中 就 使 用 
了 平衡 二 又 查 找 树 。 


1.10.3 ” 哈 希 函数 与 哈 希 表 


哈 希 函数 (hash function) 将 一 个 数据 作为 输入 ， 对 此 进行 数值 运算 ， 然 后 返回 一 个 
数值 。 该 值 可 用 作 一 个 表 (通常 为 数据 组 ) 的 索引 ， 以 快速 获得 数据 。 虽 然 在 最 坏 情 况 
下 从 大 小 为 地 的 列表 中 查找 数据 项 所 需 的 比较 会 是 O(m)， 但 是 采用 哈 希 函数 来 从 表 中 获 
得 数据 可 能 只 有 O(1)， 这 与 具体 实现 有 关 。 由 于 性 能 关系 ， 哈 希 函 数 在 操作 系统 中 用 得 
很 广 。 

哈 希 函数 有 一 潜在 问题 : 两 个 输入 可 能 产生 同样 的 输出 值 ， 即 它们 会 链接 到 列表 的 同一 
位 置 。 哈 希 碰 撞 (hash collision) 可 以 这 样 处 理 : 在 列表 位 置 上 可 以 存放 一 个 链表 ， 以 便 将 
具有 相同 哈 希 值 的 所 有 项 链接 起 来 。 当 然 ， 碰 撞 越 多 ， 哈 希 函 数 的 效率 越 低 。 

哈 希 函数 的 另 一 用 途 是 实现 哈 希 表 (hash map)， 即 利用 哈 希 函数 将 键 (key) 和 值 
(value) 关联 起 来 。 例 如 ， 可 将 键 operating 映射 到 值 system。 有 了 这 个 映射 ,就 可 将 哈 希 函 
数 应 用 于 键 ， 进 而 从 哈 希 表 中 获得 对 应 值 (图 1-17 )。 例 如， 现 有 用 户 名 称 映 射 到 用 户 密 码 。 
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用 户 认证 可 以 这 样 进行 : 用 户 输入 他 的 用 户 名 称 和 密码 ; 将 哈 希 函数 应 用 于 用 户 名 称 ， 以 获 
取 密 码 ; 获取 密码 再 与 用 户 输入 的 密码 进行 比较 ， 以 便 认 证 。 


hash_function(key) 





图 1-17 哈 希 映射 


1.10.4 位 图 


位 图 (bitmap) An SHER MAB, Peas ”项 的 状态 。 例 如 ， 假 设 有 若干 资源 ， 
每 个 资源 的 可 用 性 可 用 二 进 制 数字 来 表示 : 0 表示 资源 可 用 ， 而 1 表示 资源 不 可 用 (或 相 
反 )。 位 图 的 第 i 个 位 置 的 值 与 第 i 个 资源 相关 联 。 例如， 现 有 如 下 位 图 : 

001011101 


第 2、4、5、6 和 8 个 资源 是 不 可 用 的 , 第 0、1、3 和 7 个 资源 是 可 用 的 。 
当 考 虑 空间 效率 时 ， 位 图 优势 明显 。 如 果 所 用 的 布尔 值 是 8 位 的 而 不 是 1 位 的 ， 那么 最 
终 的 数据 结构 将 会 是 原来 的 8 倍 。 因 此 ， 当 需要 表示 大 量 资源 的 可 用 性 时 ， 通 常 采 用 位 图 。 
磁盘 驱动 器 就 是 这 么 工作 的 。 一 个 中 等 大 小 的 磁盘 可 以 分 成 数 千 个 单元 ， 称 为 磁盘 块 〈disk 
block)。 每 个 磁盘 块 的 可 用 性 就 可 通过 位 图 来 表示 。 
数据 结构 广泛 用 于 实现 操作 系统 。 因 此 ， 除 了 这 里 讨论 的 一 些 数据 结构 ， 在 分 析 内 核算 
BA 法 与 实现 时 ， 也 会 讨论 其 他 的 数据 结构 。 


Linux 内 核 数据 结构 

Linux 内 核 所 用 的 数据 结构 有 源码 。 头 文件 <Linux/list.h> 包括 内 核 所 用 的 链表 数据 
结构 的 实现 细节 。Linux 的 队列 称 为 kfifo， 源 代码 的 目录 kernel 的 文件 kfifo.c 包含 它 
的 实现 。Linux 通过 红 黑 树 提供 了 平衡 二 分 查找 树 的 实现 ， 头 文件 <linux/rbtree.h> 包 
括 它 的 细节 。 


1.11 计算 环境 


以 上 简要 描述 了 计算 机 系统 及 其 操作 系统 的 多 个 方面 ， 现 在 ， 我 们 讨论 操作 系统 如 何 用 
于 各 种 计算 环境 。 


1.11.1 传统 计算 


随 着 计算 不 断 成 熟 ， 传 统计 算 的 许多 划分 已 变 得 模糊 了 。 看 一 看 “典型 办 公 环 境 ”。 几 
年 前 ， 这 种 环境 包括 一 组 联网 的 PC， 其 中 服务 器 提供 文件 和 打印 的 服务 ; 远程 访问 很 不 方 
便 ， 可 移动 性 是 通过 采用 笔记 本 电脑 来 实现 的 。 许 多 公司 也 有 与 主机 相连 的 终端 ， 远程 访问 
能 力 和 可 移动 性 选项 则 会 更 少 。 
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当前 趋势 提供 更 多 方法 ， 以 便 访 问 这 些 计算 环境 。Web 技术 及 不 断 提 高 的 WAN 带宽 ， 
日 益 拓 展 着 传统 计算 的 边界 。 公 司 设置 门户 网 站 (web portal)， 以 便 提供 内 部 服务 器 的 Web 
访问 。 网 络 计 算 机 (network computer) 或 瘦 客 户 端 (thin client) 可 以 实现 Web 计算 ， 当 要 
求 更 高 安全 和 更 便捷 维护 时 ， 可 以 用 于 取代 传统 的 工作 站 。 移 动 计 算 机 可 与 PC 同步 ， 允 许 
移动 使 用 公司 信息 。 移 动 计算 机 也 可 连 到 无 线 网 络 ( wireless network) 和 蜂窝 数据 网 络 ， 以 
便 使 用 公司 的 门户 网 站 (和 其 他 网 站 资源 )。 

过 去 ， 大 多 数 用 户 家 里 都 有 一 台 计 算 机 ， 通 过 低速 调制 解 调 器 连 到 办 公 室 或 Internet。 
现在 ， 曾 经 很 贵 的 高 速 网 络 在 许多 地 方 都 已 很 便宜 了 ， 这 样 用 户 可 以 更 快 地 访问 更 多 数 
据 。 这 些 快 速 数据 连接 允许 家 用 计算 机 提供 Web 服务 并 且 具 有 自己 的 网 络 (包括 打印 
机 、 客 户 端 PC 和 服务 器 )。 许 多 家 庭 还 有 防火 墙 ( firewall), 保护 家 庭 内 部 环境 以 便 避 免 
破坏 。 

20 世纪 的 下 半 叶 ， 计 算 资 源 相 对 贫乏 。( 在 此 之 前 它们 根本 就 不 存在 ! ) 有 一 段 时 间 ， 
系统 或 是 批 处 理 的 ， 或 是 交互 式 的 。 批 处 理 系 统 以 批量 方式 来 处 理 作业 ， 这 些 作业 具有 事先 
定义 的 输入 (从 文件 或 其 他 数据 资源 )。 而 交互 式 系 统 等 待 用 户 输入 。 为 了 优化 计算 资源 的 
使 用 ， 多 个 用 户 共 享 这 些 系 统 的 时 间 。 分 时 系统 采用 定时 器 和 调度 算法 ， 让 各 个 进程 快速 循 
环 使 用 CPU 及 其 他 资源 。 

现在 ,传统 的 分 时 系统 不 太 常见 。 虽 然 同 样 的 调度 技术 依然 用 于 桌面 计算 机 、 笔 记 本 电 
脑 、 服 务 器 及 移动 计算 机 ， 但 是 所 有 进程 通常 属于 同一 用 户 (或 一 个 用 户 和 操作 系统 )。 用 
户 进程 ， 还 有 提供 用 户 服务 的 系统 进程 ， 都 要 加 以 管理 ， 以 便 获 得 一 定 的 计算 时 间 。 例 如 ， 
一 个 用 户 使 用 一 台 PC 时 ， 可 以 创建 许多 窗口 ， 以 便 同 时 执行 不 同 任务 。 一 个 网 页 浏览 器 甚 
至 会 有 多 个 进程 组 成 ， 每 个 进程 访问 各 自 网 站 ， 这 些 进程 也 参与 系统 的 分 时 。 


1.11.2 ”移动 计算 


移动 计算 (mobile computing) 就 是 智能 手机 或 平板 电脑 的 计算 。 这 类 设备 都 有 两 个 明 
显 物理 特性 : 便携 与 轻巧 。 以 前 ， 与 桌面 计算 机 和 笔记 本 电脑 相 比 ， 移 动 系统 在 屏幕 大 小 、 
内 存 容量 及 总 体 功 能 等 方面 虽然 有 所 欠缺 ， 但 是 能 够 处 理 email 和 浏览 网 页 。 近 来 ， 移 动 设 
备 的 功能 已 有 明显 提高 ， 甚 至 很 难 区 分 笔记 本 电脑 和 平板 电脑 。 事 实 上 ， 可 以 说 有 的 移动 设 
备 的 功能 就 连 桌面 计算 机 和 笔记 本 电脑 都 是 没有 的 。 

现在 ， 移 动 系统 不 但 用 于 处 理 email 和 浏览 网 页 ， 而 且 还 能 播放 音乐 和 视频 、 阅 读 电 子 
书 、 拍 照 、 录 制 高 清 视频 等 。 相 应 地 ， 移 动 设备 的 应 用 程序 发 展 迅猛 。 许 多 开发 商都 在 设 
计 应 用 程序 ， 以 充分 利用 移动 设备 的 特点 ， 如 GPS ( Global Positioning System) 定位 、 加 
速度 传感器 、 陀 螺 仪 传感器 等 。 内 册 GPS 芯片 允许 移动 设备 采用 卫星 精确 确定 它 的 地 理 位 
置 。 这 种 功能 在 导航 应 用 程序 中 是 很 有 用 的 ， 例 如 ， 告 诉 用 户 向 哪里 步行 或 开车 ， 或 者 向 哪 
个 方向 可 以 到 达 附 近 和 餐馆 等 。 加 速度 传感器 可 为 移动 设备 检测 相对 地 面 的 方位 ， 并 检测 其 
他 数据 ， 如 倾斜 和 摇动 等 。 对 于 采用 加 速度 传感器 的 计算 机 游戏 ， 玩 家 控制 系统 不 是 通过 
鼠标 或 键盘 ， 而 是 通过 倾斜 、 旋 转 和 摇动 移动 设备 ! 或 许 ， 这 些 特点 会 更 多 地 用 于 增强 现实 
(augmented-reality) 的 应 用 程序 ， 这 类 程序 可 在 当前 环境 上 释 加 一 层 信息 。 很 难 想象 在 传统 
桌面 计算 机 或 笔记 本 电脑 上 如 何 开发 这 种 程序 。 

为 了 提高 在 线 访问 服务 ， 移 动 设备 通常 采用 符合 IEEE 802.11 标准 的 无 线 网 络 或 蜂窝 数 
据 网 络 。 不 过 ， 移 动 设备 的 内 存 容量 和 处 理 速度 还 是 不 如 PC。 虽 然 智能 手机 或 平板 可 能 有 
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64GB 的 存储 ， 但 是 桌面 计算 机 通常 具有 ITB 的 存储 。 类 似 地 ， 由 于 需要 考虑 电池 消耗 ， 移 


动 设备 通常 使 用 较 小 、 较 慢 的 处 理 器 ， 所 用 的 处 理 核 数量 也 要 少 于 传统 桌面 计算 机 或 笔记 本 
电脑 。 

移动 计算 现 有 两 个 主要 操作 系统 : 苹果 iOS (Apple iOS) 和 谷歌 安 卓 (Google Android). 
iOS 用 于 苹果 公司 的 iPhone 和 iPad, Android 支持 很 多 厂家 的 智能 手机 和 平板 电脑 。 第 2 章 
会 进一步 讨论 这 两 个 移动 操作 系统 。 


1.11.3 “分布 计算 


分 布 式 系统 是 物理 上 分 开 的 、 可 能 异 构 的 、 通 过 网 络 相 联 的 一 组 计算 机 系统 ， 可 供用 户 
访问 系统 维护 的 各 个 资源 。 共 享 资源 的 访问 可 提高 计算 速度 、 功 能 、 数 据 可 用 性 及 可 靠 性 。 
有 的 操作 系统 将 网 络 访问 简化 为 文件 访问 ， 而 网 络 细节 则 包含 在 网 络 接口 驱动 程序 中 ; 而 其 
他 的 操作 系统 则 让 用 户 自己 调用 网 络 功能 。 通 常 ， 系 统 对 这 两 种 模式 都 会 支持 ， 如 FTP 和 
NFS。 构建 分 布 式 系统 的 协议 可 以 极 大 影响 系统 的 实用 和 普及 。 

简单 地 说 ， 网 络 (network) 就 是 两 个 或 多 个 系统 之 间 的 通信 和 路径。 分 布 式 系统 通过 网 络 
提供 功能 。 由 于 通信 协议 、 节 点 距离 、 传 输 媒 介 的 不 同 ， 网 络 也 会 不 同 。 传 输 控制 协议 /网 
间 协 议 ( Transport Control Protocol/Internet Protocol, TCP/IP) 是 最 为 常用 的 网 络 协议 ， 为 
因特网 提供 了 基础 架构 。 大 多 数 的 操作 系统 都 支持 TCP/IP， 包 括 所 有 通用 协议 。 有 的 系统 
支持 专用 协议 ， 以 满足 特定 需求 。 对 于 操作 系统 而 言 ， 一 个 网 络 协议 只 是 需要 一 个 接口 设 
备 〈 如 网 络 适 配器 )， 通 过 驱动 程序 以 便 管 理 它 以 及 处 理 数 据 的 软件 。 这 些 概念 后 面 会 加 以 
讨论 。 

网 络 可 以 根据 节点 之 间 的 距离 来 划分 。 局 域 网 ( Local-Area Network, LAN) 位 于 一 
个 房间 、 一 栋 大 楼 或 一 所 校园 。 广 域 网 ( Wide-Area Network, WAN) 通常 用 于 联接 楼 宇 、 
城市 或 国家 。 例 如 ， 一 个 全 球 性 的 公司 可 以 用 WAN 将 其 全 球 内 的 办 公 室 联接 起 来 。 这 些 
网 络 可 以 采用 单个 或 多 个 协议 。 不 断 出 现 的 新 技术 也 带 来 新 的 网 络 类 型 。 例 如 ， 城 域 网 
(Metropolitan-Area Network, MAN) 可 以 将 一 个 城市 内 的 楼 衬 连接 起 来 。 蓝 牙 和 802.11 
设备 采用 无 线 技术 ， 实 现在 数 米内 的 无 线 通信 ， 进 而 创建 了 个 人 局 域 网 ( Personal-Area 
Network，PAN)， 以 连接 电话 和 耳机 或 连接 智能 手机 和 桌面 计算 机 。 

网 络 的 连接 媒介 同样 很 多 ， 它 们 包括 铜 线 、 光 纤 、 卫 星之 间 的 无 线 传输 、 微 波 和 无 线 电 
波 。 当 计算 设备 连接 到 手机 时 ， 就 创建 了 一 个 网 络 。 即 使 非常 近 距 离 的 红外 通信 也 可 用 来 构 
建 网络 。 总 之 ， 无论 计 算 机 何 时 通信 ， 它 们 都 要 使 用 或 构建 一 个 网 络 。 这 些 网 络 的 性 能 和 可 
靠 性 各 不 相同 。 

有 的 操作 系统 不 但 提供 网 络 连 接 ， 而 且 进 一 步 拓 广 了 网 络 和 分 布 式 系统 的 概念 。 网 络 操 
作 系 统 ( network operating system) 就 是 这 样 一 种 操作 系统 ， 它 提供 跨 网 络 的 文件 共享 、 不 
同 计算 机 进程 的 消息 交换 等 功能 。 虽 然 运行 网 络 操作 系统 的 计算 机 知道 有 网 络 且 能 与 其 他 
联网 的 计算 机 进行 通信 ， 但 是 相对 于 网 络 上 的 其 他 计算 机 而 言 却 是 自治 的 。 分 布 式 操作 系 
统 提 供 较 少 的 自治 环境 。 不 同 的 计算 机 紧密 通信 ， 以 致 于 好 像 只 有 一 个 操作 系统 控制 整个 
网 络 。 


1.11.4 客户 机 - 服务 器 计算 
随 着 PC 变 得 更 快 、 更 强大 和 更 便宜 ， 设 计 人 员 开 始 放弃 基于 集中 式 系统 的 架构 。 与 中 
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心 系 统 相连 的 终端 也 在 让 位 给 PC 和 移动 设备 。 相 应 地 ， 用 户 接口 功能 过 去 直接 由 中 心 系统 
所 处 理 ， 现 在 也 更 多 地 由 PC 所 取代 ， 通 常 为 Web 接口 。 因 此 ， 许 多 现代 系统 可 作为 服务 器 
系统 (server system )， 以 满足 客户 机 系统 (client system) 的 请 求 。 这 种 形式 的 专用 分 布 式 系 
统称 为 客户 机 - ARS AZ (client-server system), HA UA 1-18 所 示 的 通用 结构 。 





图 1-18 客户 机 - 服务 器 系统 的 通用 结构 


服务 器 系统 可 大 致 分 为 计算 服务 器 和 文件 服务 器 : 

e 计算 服务 器 系统 ( compute-server system) 提供 接口 ， 以 便 客 户 发 送 请 求 以 执行 操作 
(如 读数 据 )。 相 应 地 ， 服 务 器 执行 操作 ， 并 发 送 结果 到 客户 机 。 例 如 ， 如 果 一 个 服务 
器 运行 数据 库 ， 那 么 就 可 响应 客户 机 的 数据 请 求 。 

© 文件 服务 器 系统 (file-server system) 提供 文件 系统 接口 ， 以 便 客户 机 可 以 创建 、 更 
新 、 访 问 和 删除 文件 。 例 如 ， 一 个 Web 服务 器 可 以 发 送 文 件 到 运行 Web 浏览 器 的 客 
户 机 。 


1.11.5 “对 等 计算 


分 布 式 系统 的 另 一 结构 是 对 等 ( Peer-to-Peer，P2P) 系统 模型 。 这 个 模型 并 不 区 分 客户 
机 与 服务 器 。 所 有 系统 节点 都 是 对 等 的 ， 每 个 节点 都 可 作为 客户 机 或 服务 器 ， 这 取决 于 它 
是 请 求 还 是 提供 服务 。 对 等 系统 与 传统 的 客户 机 - 服务 器 相 比 有 一 优点 : 在 客户 机 一 服务 
器 系统 中 ， 服 务 器 是 个 瓶颈 ; 但 是 在 对 等 系统 中 ， 分 布 在 整个 网 络 内 的 多 个 节点 都 可 提供 
服务 。 

一 个 节点 在 加 入 对 等 系统 时 ， 就 应 首先 加 入 对 等 网 络 。 节 点 一 旦 加 入 对 等 网 络 ， 就 可 以 
开始 为 网 络 的 其 他 节点 提供 服务 或 请 求 服务 。 判 断 哪些 服务 可 用 包括 两 种 基本 方法 : 

e 当 一 个 节点 加 入 网 络 时 ， 它 通过 网 络 集中 查询 服务 来 注册 服务 。 任 何 节点 如 果 需 要 

某 种 服务 ， 首 先 联 系 集中 查询 服务 ， 以 获得 哪 
个 节点 可 以 提供 服务 。 剩 下 的 通信 就 在 客户 机 
和 服务 者 之 间 进 行 。 

© 男 一 方案 没有 使 用 集中 查询 服务 。 作 为 客户 机 

的 节点 ， 对 网 络 的 所 有 其 他 节点 ， 广 播 服务 请 
求 ， 以 发 现 哪 个 节点 可 以 提供 所 需 服务 。 提 
供 服 务 的 节点 (或 多 个 节点 ) 会 响应 客户 机 节 
点 。 为 了 支持 这 种 方法 ， 应 提供 一 种 发 现 协议 
(discovery protocol)， 以 允许 节点 发 现 其 他 节 
点 服务 。 图 1-19 示例 了 这 种 情况 。 图 1-19 无 中 央 控 制 的 对 等 系统 
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提供 文件 共享 服务 的 对 等 网 络 在 20 世纪 90 年 代 后 期 很 受 欢 迎 ， 如 Napster 和 Gnutella， 可 
让 对 等 节点 互相 交换 文件 。Napster 系统 采用 类 似 上 述 的 第 一 种 方法 : 一 个 集中 服务 器 维护 
存储 在 Napster 网 络 上 对 等 节点 的 所 有 文件 的 索引 ， 而 对 等 节点 之 间 进 行文 件 交换 。Gnutella 
系统 采用 类 似 上 述 的 第 二 种 方法 : 一 个 客户 机 向 系统 的 其 他 节点 广播 文件 请 求 ， 能 够 服务 请 
求 的 节点 直接 响应 请 求 。 文 件 交换 的 未 来 发 展 并 不 明朗 ， 因 为 对 等 网 络 可 以 用 于 传播 有 产权 
保护 的 资料 (如 音乐 )， 而 这 些 授权 资料 的 传播 是 有 法 律 限 制 的 。 值 得 一 提 的 是 ，Napster 已 
陷入 侵权 案件 ， 其 服务 也 在 2001 年 关 停 。 

另 一 个 对 等 计算 的 例子 是 Skype。 它 采用 了 IP 语音 (Voice Over IP, VoIP) 技术 ， 客 户 
可 以 在 Internet 上 进行 语音 通话 、 视 频 通话 、 发 送 文本 消息 等 。Skype 采用 了 混合 方式 : 它 
有 集中 登录 服务 器 ， 也 支持 分 散 节 点 之 间 的 通信 。 


1.11.6 ”虚拟 化 


通过 虚拟 化 技术 ， 操 作 系 统 可 以 在 其 他 操作 系统 上 运行 应 用 程序 。 乍 一 看 ， 这 种 功能 
似乎 没有 道理 。 然 而 ， 虚 拟 化 不 仅 产 业 巨 大 ， 而 且 发 展 很 快 ， 这 也 说 明了 它 的 实用 性 和 重 
要 性 。 

广义 而 言 ， 虚 拟 化 技术 是 一 种 软件 技术 ， 用 于 实现 模拟 。 当 原 有 CPU 与 现 有 CPU 类 
型 不 同时 ， 就 可 采用 模拟 (emulation )。 例 如 ， 在 Apple 公司 将 其 桌面 电脑 和 笔记 本 的 IBM 
Power CPU 换 成 mtel x86 CPU 时 ， 就 增加 了 一 个 称 为 “Rosetta” 的 模拟 软件 ， 以 允许 为 
IBM CPU 而 编译 的 应 用 程序 能 够 运行 在 Intel CPU 上 。 这 一 概念 的 进一步 延伸 是 ， 人 允许 某 
一 平台 的 操作 系统 可 以 运行 在 另 一 平台 上 。 不 过 ， 模 拟 的 代价 还 是 很 高 的 。 可 在 原来 系统 上 
运行 的 每 个 机 器 层 的 指令 ， 应 转换 成 现 有 系统 的 指令 ， 而 且 常 常会 变 为 多 个 指令 。 如 果 原 
CPU 和 现 CPU 的 性 能 级 别 相似 ， 那 么 模拟 代码 要 比 原 机 代码 慢 不 少 。 

模拟 的 一 个 常见 例子 是 : 一 种 计算 语言 不 能 编译 成 原 机 代码 ， 而 是 要 转换 成 中 间 形 式 或 
按 高 级 形式 来 执行 。 这 称 为 解释 ( interpretation)。 例 如 ，BASIC 可 编译 也 可 解释 ， 而 Java 
总 是 解释 的 。 解 释 是 一 种 模拟 ， 人 允许 高 级 语言 代码 转换 成 原 CPU 的 指令 ; 这 不 只 是 模拟 
CPU， 而 是 创建 了 一 个 理论 上 的 虚拟 机 器 ， 可 以 直接 运行 高 级 语言 。 因 此 ， 我 们 能 在 Java 
虚拟 机 上 运行 Java 程序 ， 尽 管 这 种 虚拟 机 只 是 Java 模拟 程序 。 

不 过 ,通过 虚拟 化 (virtualization), A4L— CPU 而 编译 的 操作 系统 可 以 运行 在 为 男 一 
相同 CPU 而 编译 的 操作 系统 上 。 虚 拟 化 技术 首先 用 在 IBM 大 型 机 上 ， 以 便 多 个 用 户 并 发 运 
行 任务 。 运 行 多 个 虚拟 机 ， 人 允许 许多 用 户 在 为 单 用 户 设 计 的 系统 上 运行 任务 。 后 来 ,为 了 解 
决 在 Intel x86 CPU 上 运行 多 个 微软 Windows XP，VMWare 公司 采用 了 一 种 新 的 虚拟 化 技术 ， 
并 开发 了 可 运行 XP 的 应 用 程序 。 该 应 用 程序 可 以 运行 一 个 或 多 个 Windows 或 其 他 用 于 x86 的 
客户 操作 系统 (guest operating system )， 而 每 个 操作 系统 都 可 运行 自己 的 应 用 程序 ( 见 图 1-20 )。 
Windows 为 主机 操作 系统 ( host operating system), mi VMware 应 用 程序 为 VMM。VMM 运 
行 客户 操作 系统 ， 管 理 资源 使 用 ， 并 且 提 供 保护 。 

虽说 现代 操作 系统 完全 能 够 可 靠 运行 多 个 应 用 ， 但 是 虚拟 化 技术 的 使 用 还 是 继续 增长 。 
在 笔记 本 和 桌面 电脑 上 ，VMM 允许 用 户 安装 多 个 操作 系统 来 用 于 研究 工作 ， 或 运行 为 客户 
操作 系统 而 编写 的 应 用 程序 。 例 如 ， 在 x86 CPU 上 运用 Mac OS X 操作 系统 的 Apple 笔记 
本 ， 可 以 运行 一 个 客户 Windows， 以 便 运行 Windows 的 应 用 程序 。 为 多 个 操作 系统 编写 软 
件 的 公司 可 以 采用 虚拟 化 技术 ， 在 单个 物理 服务 器 上 运行 多 个 操作 系统 ， 以 便 开 发 、 测 试 
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和 调试 。 在 数据 中 心 ， 虚 拟 化 技术 常常 用 于 运行 和 管理 计算 环境 。 如 VMware ESX 和 Citrix 
XenServer 的 VMM 不 再 运行 在 主机 操作 系统 上 ， 而 是 直接 运行 在 主机 上 。 











图 1-20 VMware 


1.11.7 ZWA 


Bit (cloud computing) 可 以 通过 网 络 提供 计算 、 存 储 甚至 应 用 程序 等 服务 。 从 
某 些 方面 来 看 ， 它 是 虚拟 化 技术 的 延伸 ， 因 为 它 以 虚拟 化 技术 为 基础 来 实现 功能 。 例 如 ， 
Amazon Elastic Compute Cloud ( EC2 ) 有 数 千 个 服务 器 ， 数 百 万 个 虚拟 机 ， 数 千 万 亿 字 节 的 
存储 ， 可 供 任 何 Internet 用 户 来 使 用 。 用 户 根据 使 用 资源 多 少 ， 按 月 付费 。 
云 计算 实际 上 有 许多 类 型 ， 包 括 如 下 : 
e BZ (public cloud)。 只 要 愿意 为 服务 付费 就 可 以 使 用 的 云 。 
e 私 云 (private cloud)。 公 司 自己 使 用 自己 的 云 。 
e HAZ (hybrid cloud)。 有 公 云 部 分 也 有 私 云 部 分 的 云 。 
o 软件 即 服 务 (Software as a Service，SaaS)。 可 通过 Internet 使 用 的 应 用 程序 (如 文字 
处 理 程序 或 电子 表格 程序 )。 
e 平台 即 服务 (Platform as a Service，PaaS)。 可 通过 Internet 而 为 应 用 程序 (如 数据 库 
服务 器 ) 使 用 的 软件 堆栈 。 
e 基础 设施 即 服务 (Infrastructure as a Service，IaaS )。 可 通过 Internet 使 用 的 服务 器 或 
存储 〈 如 用 于 生产 数据 备份 的 存储 )。 
这 些 云 计 算 类 型 可 以 组 合 ， 这 样 一 个 云 计 算 环 境 可 以 提供 多 种 类 型 的 服务 。 例 如 ， 一 个 
公司 可 能 同时 提供 SaaS 和 laas 作为 公共 可 用 服务 。 
当然 ， 许 多 类 型 的 云 基础 设施 使 用 一 些 传统 操作 系统 。 除 了 这 些 ，VMM 可 以 管理 虚 
拟 机 ， 以 供用 户 运行 进程 。 在 更 高 层 ， 管 理 VMM 本 身 有 云 管理 工具 ， 如 Vware vCloud 
Director 和 开源 Eucalyptus 工具 集 。 这 些 工具 管理 云 内 的 资源 ， 为 云 组 件 提供 接口 ; 这 也 提 
供 一 个 好 的 理由 ， 让 其 成 为 一 种 新 的 操作 系统 。 
图 1-21 为 一 个 提供 laas MAB. EB: 云 服 务 与 云 用 户 的 接口 是 用 防火 墙 来 保 
护 的 。 
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图 1-21 云 计算 


1.11.8 实时 藤 入 式 系统 


艇 入 式 计 算 机 是 目前 最 为 普遍 的 计算 机 。 从 汽车 引擎 和 制造 机 器 人 ， 到 录像 机 和 微波 
炉 ， 到 处 可 以 找到 它们 的 身影 。 它 们 往往 具有 特定 任务 ， 运 行 系统 通常 很 简单 ， 因 此 操作 系 
统 提 供 了 有 限 的 功能 。 通 常 ， 它 们 很 少 有 甚至 没有 用 户 界面 ， 主 要 关注 监视 和 管理 硬件 设 
备 ， 如 汽车 引擎 和 机 器 手 。 

这 些 通 入 式 系统 差别 相当 大 。 有 的 是 通用 计算 机 ， 具 有 标准 的 操作 系统 如 Linux, JF 
运行 专用 应 用 程序 来 实现 功能 。 还 有 的 硬件 设备 具有 专用 的 伐 和 式 操作 系统 ， 以 提供 所 需 
功能 。 此 外 ， 还 有 其 他 的 硬件 设备 ， 不 采用 操作 系统 ， 而 采用 专用 集成 电路 (Application 
Specific Integrated Circuit, ASIC) 来 执行 任务 。 

嵌入 式 系统 的 使 用 继续 扩大 。 无 论 是 作为 独立 单元 还 是 作为 网 络 或 Web 的 组 件 ， 这 些 
设备 的 性 能 也 在 增强 。 现 在 ， 整 个 房屋 可 以 由 计算 机 来 控制 ， 这 样 一 台中 心计 算 机 ， 无 论 是 
通用 计算 机 还 是 敬 入 式 计算 机 ， 可 以 控制 取暖 、 照 明 、 报 警 甚至 咖啡 机 等 。 通 过 Web 访问 ， 
房 主 可 告诉 房子 在 他 回 家 之 前 加 好 温度 。 将 来 ,冰箱 也 可 能 在 发 现 牛 奶 没有 时 ， 通 知 食品 杂 
货 店 送 货 。 

嵌入 式 系统 几乎 总 是 采用 实时 操作 系统 ( real-time operating system)。 当 处 理 器 执行 或 
数据 流动 具有 严格 时 间 要 求 时 ， 就 要 使 用 实时 系统 ， 通 常用 作 特 定 应 用 的 控制 设备 。 计 算 机 
从 传感器 获得 数据 ， 接 着 分 析 数 据 ， 然 后 通过 控制 调整 传感器 输入 。 科 学 试验 的 控制 系统 、 
医学 成 像 系统 、 工 业 控制 系统 和 有 些 显示 系统 等 ， 都 是 实时 系统 。 有 些 汽 车 喷 油 系统 、 家 电 
控制 器 和 武器 系统 等 也 是 实时 系统 。 

实时 系统 具有 明确 的 、 固 定 的 时 间 约 束 。 处 理 必 须 在 固定 时 间 约 束 内 完成 ， 否 则 系统 就 
会 出 错 。 如 果 机 器 手 在 打 坏 所 造 汽车 之 后 才 停 止 ， 那 么 就 不 行 了 。 只 有 在 时 间 约束 内 返回 正 
确 结 果 ， 实 时 系统 的 运行 才 是 正确 的 。 与 之 不 同 的 是 ， 分 时 系统 只 是 要 (而 不 是 一 定 ) 响应 
快 ， 而 批 处 理 系统 则 没有 任何 时 间 约 束 。 

第 5 章 讨论 操作 系统 如 何 实现 实时 功能 的 调度 。 第 9 章 讨论 实时 计算 的 内 存 管理 设计 。 
最 后 ,第 16 章 和 第 17 章 讨论 Linux 和 Windows 7 操作 系统 的 实时 组 件 。 
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1.12 ”开源 操作 系统 


在 本 章 开 头 ， 我 们 说 过 由 于 有 大 量 的 开源 操作 系统 ， 操 作 系 统 的 学 习 容 易 得 多 。 开 源 操 
作 系 统 (open-source operating system) 具有 源码 ， 而 非 只 有 编译 过 的 二 进 制 码 。Linux 是 最 
为 著名 的 开源 操作 系统 ， 而 Microsoft Windows 则 是 一 个 著名 的 、 闭 源 (closed source) MA 
统 。Apple 公司 的 Mac OS X 和 iOS 操作 系统 采用 一 种 混合 方式 。 它 们 有 开源 的 内 核 KH 
Darwin， 也 有 闭 源 的 专用 组 件 。 

从 源码 可 以 生成 二 进 制 码 ， 以 便 在 系统 上 运行 。 而 反 着 干 ， 即 从 二 进 制 码 到 源码 的 逆向 
工程 (reverse engineering)， 则 很 费力 ， 并 且 也 无 法 恢复 一 些 有 用 信息 ， 如 注释 。 通 过 阅读 源 
码 学 习 操 作 系统 还 有 很 多 好 处 。 有 了 源码 ， 学 生 可 以 修改 操作 系统 ， 再 编译 和 运行 源码 ， 观 
察 修 改 结果 ， 这 是 很 好 的 学 习 方 式 。 除 了 从 高 层 上 描述 算法 以 覆盖 所 有 操作 系统 的 主题 外 ， 
本 书 还 有 一 些 涉 及 修改 操作 系统 源码 的 项 目 。 本 书 将 会 指出 一 些 源码 ， 以 供 深入 学 习 。 

开源 操作 系统 具有 许多 好 处 ， 包 括 一 群 感 兴 趣 的 (通常 无 报酬 的 ) 程序 员 来 帮助 调试 、 
分 析 、 支 持 和 建言 等 。 可 以 说 ， 开 源 代码 比 闭 源 代码 更 为 安全 ， 这 是 因为 有 更 多 眼睛 来 查看 
代码 。 当 然 ， 开 源 代码 也 有 错误 ， 不 过 开源 倡导 者 认为 ， 由 于 使 用 和 查看 代码 的 人 多 ， 错 
误会 很 快 被 发 现 并 加 以 纠正 。 虽 然 销售 软件 以 便 赚 取 收 入 的 公司 通常 不 愿 开放 源 码 , 但 是 
RedHat 和 大 量 其 他 公司 却 在 开放 源码 ， 并 且 从 中 获 利 (而 并 未 受到 损失 )。 例 如 ， 通 过 提供 
支持 或 出 售 软件 所 能 运行 的 硬件 ， 也 能 增加 收入 。 


1.12.1 历史 


在 现代 计算 初期 ( 即 20 世纪 50 年代) 时 ， 大 量 软件 都 是 开源 的 。MIT 的 Tech Model 
Railrod Club 的 最 初 骇 客 (计算 机 爱好 者 ) 将 程序 留 在 抽 屋 里 以 便 他 人 可 用 。 “Homebrew” 
用 户 群 在 开会 时 交换 代码 。 后 来 ， 公 司 的 用 户 群 ， 如 Digital Equipment Corporation 的 DEC, 
接受 开源 程序 ， 汇 集 到 磁带 ， 再 将 磁带 发 到 感 兴趣 的 成 员 。 

最 终 ， 计 算 机 和 软件 公司 试图 限制 软件 使 用 ， 如 只 限于 授权 计算 机 和 付费 客户 。 仅 发 
布 二 进 制 代 码 而 非 源 代码 ， 可 让 这 些 公司 实现 这 一 目标 ; 对 竞争 对 手 来 说 ， 也 保护 了 代码 及 
其 方法 。 还 有 一 个 问题 是 关于 知识 产权 的 。 操 作 系统 和 其 他 程序 可 以 实施 限制 ， 只 有 授权 计 
算 机 才 可 播放 视频 和 音乐 、 阅 读 电 子 书 等 。 如 果实 现 这 些 限 制 的 源码 公开 了 ， 那 么 复制 保护 
(copy protection) 和 数字 版 权 管理 (Digital Rights Management, DRM) 就 无 效 了 。 许 多 国家 
的 法 律 ， 包 括 美国 的 千 禧 年 数字 版 权 法 案 ( Digital Millennium Copyright Act，DMCA )， 都 
认定 DRM 代码 的 逆向 工程 或 试图 绕 过 复制 保护 是 违法 的 。 

为 反对 限制 软件 使 用 与 再 发 布 ，Richard Stallman 于 1983 年 设立 了 GNU 项 目 ， 以 创建 
一 个 免费 的 、 开 源 的 、 兼 容 UNIX 的 操作 系统 。1985 年 ， 他 发 表 了 GNU 宣言 ， 主 张 软件 应 
是 免费 的 和 开源 的 。 他 也 设立 了 自由 软件 基金 会 ( Free Software Foundation, FSF), DASI) 
自由 交流 软件 源码 和 免费 使 用 软件 。FSF 不 是 对 软件 施加 版 权 ( copyright)， 而 是 对 软件 施 
加 著 佐 权 (copyleft)， 鼓 励 共享 和 改进 。GNU 通用 公共 许可 证 (Gnu General Public License, 
GPL) 为 著 佐 权 的 条 文 ， 这 是 一 个 发 行 软件 的 公共 许可 证 。 从 根本 上 说 ，GPL 规定 : 软件 源 
代码 应 与 二 进 制 一 起 分 布 ， 软 件 源 代码 的 任何 修改 应 按 同 样 的 GPL 许可 来 发 布 。 


1.12.2 Linux 
GNU/Linux 是 开源 操作 系统 的 范例 。GNU 项 目 开 发 了 许多 与 UNIX 兼容 的 工具 ,包括 
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编译 器 、 编 辑 器 及 其 他 实用 程序 ， 但 从 未 发 布 内 核 。1991 年 ， 一 位 名 叫 Linus Torvalds 的 芬 
兰 大 学 生 ， 利 用 GNU 编译 器 和 工具 ， 开 发 并 发 布 了 一 个 类 似 UNIX 的 简单 内 核 ， 并 邀请 大 
家 一 起 开发 。 有 了 Internet， 任 何 有 兴趣 的 人 员 都 可 下 载 源 码 ， 可 修改 它 ， 可 向 Torvalds iğ 
交 修 改 。 每 周 更 新 一 次 ， 加 上 数 千 程 序 员 的 共同 努力 ， 使 得 这 个 称 为 Linux 的 操作 系统 迅速 
发 展 起 来 。 
这 样 形成 的 GNU/Linux 操作 系统 有 数 百 个 的 不 同 发 布 distribution) 和 定制 。 主 
流 的 发 布 有 RedHat、SUSE、Fedora、Debian Slackware 和 Ubuntu。 在 功能 、 实 用 程 
序 、 应 用 程序 、 硬 件 支持 、 用 户 界面 和 用 途 等 方面 ,这些 发 布 不 尽 相 同 。 例 如 ，RedHat 
Enterprise Linux 针对 的 是 大 企业 的 应 用 。PCLinuxOS 为 LiveCD ， 该 操作 系统 可 以 从 CD- 
ROM 上 直接 引导 并 运行 ， 而 无 需 安装 到 系统 硬盘 。 一 种 称 为 “PCLinuxOS Supergamer 
DVD” 的 PCLinuxOS 为 LiveDVD， 它 包括 图 形 驱动 程序 和 游戏 。 玩 家 可 以 在 任何 兼容 系 
统 上 ， 直 接 从 DVD 引导 并 开始 游戏 。 游 戏 结束 后 ， 系 统 重新 引导 就 会 回 到 原来 安装 的 操作 
系统 。 
在 Windows 系统 上 ， 运 行 Linux 的 简单 而 且 免 费 的 方法 如 下 : 
e 下 载 免费 “VMware Player” 工 具 (http:/www.vmware.com/download/player/) 并 安 
装 到 系统 。 
© 从 数 百 个 Linux 版 本 中 选择 一 个 ， 或 者 从 VMware 网 站 上 直接 选择 一 个 虚拟 机 镜像 
( http://www.vmware.com/appliances)。 这 些 镜 像 已 安装 了 操作 系统 和 应 用 程序 ， 包 括 
各 种 各 样 的 Linux。 
e 从 VMware Player 中 引导 虚拟 机 。 
本 书 提供 了 一 个 Debian Linux 的 虚拟 机 镜像 。 该 镜像 有 Linux 源码 ， 也 有 软件 开发 工具 。 本 
书 的 有 些 例子 ， 以 及 第 16 章 的 具体 样 例 ， 都 会 涉及 这 一 Linux 镜像 。 


1.12.3 BSD UNIX 


与 Linux 相 比 ，BSD UNIX 的 历史 要 更 长 也 更 复杂 。 它 开始 于 1978 年 ， 源 自 AT&T 的 
UNIX。 加 利 福 尼 亚 大 学 伯克利 分 校 发 布 了 它 的 源码 和 二 进 制 码 ， 但 它 不 是 开源 的 ， 这 是 因 
为 受到 AT&T 版 权 的 限制 。BSD UNIX 的 开发 因 AT&T 诉讼 而 缓慢 ， 不 过 最 终 一 个 完全 可 
用 的 、 开 源 的 4.4 BSD-lite 于 1994 年 得 以 发 布 。 

iE 4 Linux — fF, BSD UNIX 也 有 许多 发 布 ， 如 FreeBSD、NetBSD、OpenBSD 和 
DragonflyBSD 等 。 为 了 研究 FreeBSD 源码 ， 只 要 下 载 感 兴趣 版 本 的 虚拟 机 镜像 ， 并 从 
VMware 中 引导 即 可 ， 具 体 步 骤 与 Linux 相似 。 源 码 也 一 起 发 布 ， 位 于 目录 /usrsrc 下 。 内 
核 源 码 在 目录 /usrsrc/sys 下 。 例 如 ， 为 了 查看 FreeBSD 内 核 有 关 虚 拟 内 存 实 现 的 代码 ， 可 
以 阅读 /usrsrc/sys/vm 中 的 文件 。 

Darwin 为 Mac OSX 的 核心 内 核 组 件 ， 是 基于 BSD UNIX 的 ， 也 是 开源 的 。 该 源码 在 
http://www.opensource.apple.com 上 ， 每 次 MacOS X 发 布 的 开源 组 件 都 在 该 网 站 上 。 包 含 内 
核 包 的 名 称 以 “xnu” 为 开始 。 另 外 ，Apple 也 在 http://connect.apple.com 上 提供 了 大 量 开 
发 工具 、 文 档 和 支持 。 更 多 信息 可 以 参见 附录 A。 


1.12.4 Solaris 
Solaris 为 Sun Microsystems 的 商用 的 、 基 于 UNIX 的 操作 系统 。 最 初 ，SUN 的 SunOS 
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操作 系统 是 基于 BSD UNIX 的 。1991 年 ，SUN 移 到 AT&T 的 System V UNIX。2005 年 ，Sun 
开源 了 Solaris 的 大 部 分 代码 ， 以 作为 OpenSolaris 项 目 。 不 过 , 2009 年 , Sun 被 Oracle 收购 ， 
这 一 项 目的 前 景 就 不 明朗 了 。2005 年 的 源码 仍然 还 是 可 以 通过 源 代 码 浏览 器 看 到 的 ， 也 可 
从 http://src.opensolaris.org/source 下 载 。 

对 于 使 用 OpenSolaris 感 兴趣 的 多 个 组 织 ， 利 用 这 个 作为 基础 ， 进 而 扩展 功能 。 这 个 项 
目 称 为 Ilumos， 目 的 是 扩展 基本 OpenSolaris 以 增加 更 多 功能 ， 并 应 用 到 多 个 产品 。Illumos 
可 从 http://wiki.illumos.org 得 到 。 


1.12.5 用 作 学 习 的 开源 操作 系统 


自由 软件 运动 使 得 众多 程序 员 创建 了 数 千 个 开源 项 目 ， 包 括 操作 系统 。 网 站 如 http:// 
freshmeat.neg/ 和 http://distrowatch.com/ 为 许多 这 些 项 目 提供 了 门户 网 站 。 正 如 以 上 所 述 ， 
开源 项 目 让 学 生 利 用 源码 作为 学 习 工 具 。 他 们 可 以 修改 程序 ， 测试 程 序 ， 帮助 查 错 和 纠 错 ， 
也 可 研究 全 功能 的 成 熟 操作 系统 、 编 译 器 、 工 具 、 用 户 界面 和 许多 其 他 类 型 的 程序 。 以 前 项 
A (40 Multics) 的 源码 有 助 于 学 生 学 习 这 些 项 目 ， 增 长 知识 ， 实 现 新 的 项 目 。 

虽然 GNU/Linux 和 BSD UNIX 都 是 开源 操作 系统 ， 但 是 它们 有 自己 的 目标 、 工 具 、 版 
权 和 用 途 。 有 时 ， 版 权 并 不 互 斥 ， 也 会 出 现 交 叉 ， 这 也 加 快 了 开源 操作 系统 项 目的 改进 。 例 
如 ，OpenSolaris 的 多 个 组 件 就 移植 到 BSD UNIX。 免 费 和 开源 的 优点 可 能 是 : 提高 了 开源 
项 目的 数量 和 质量 ， 使 用 这 些 项 目的 个 人 和 公司 也 增加 了 。 


1.13 ”小 结 


操作 系统 是 管理 计算 机 硬件 并 提供 应 用 程序 运行 环境 的 软件 。 操 作 系 统 最 为 直观 之 处 或 
许 是 它 提供 的 用 户 与 计算 机 系统 的 界面 。 

为 了 让 计算 机 执行 程序 ， 程 序 应 在 内 存 中 。 内 存 是 唯一 的 、 处 理 器 可 以 直接 访问 的 、 大 
容量 的 存储 区 域 。 内 存 为 字 节 数组 ， 其 容量 为 数 百 万 到 数 十 亿 。 每 个 内 存 字 节 都 有 地 址 。 内 
存 通 常 是 易 失 性 存储 ， 关 闭 或 失去 电源 就 会 失去 内 容 。 大 多 数 计算 机 系统 都 提供 了 外 存 ， 以 
扩充 内 存 。 外 存 提供 了 一 种 非 易 失 存储 ， 可 长 久保 存 大 量 数据 。 最 常用 的 外 存 是 磁盘 ， 它 提 
供 数据 和 程序 的 存储 。 

根据 速度 和 价格 ， 计 算 机 系统 的 不 同 存储 系统 可 按 层次 来 组 织 。 层 次 越 高 ， 价 格 越 贵 ， 
但 也 越 快 。 随 着 从 层次 结构 的 由 上 向 下 的 移动 ， 每 个 字 节 的 价格 通常 会 降低 ,但 是 访问 时 间 
通常 会 增加 。 

计算 机 系统 的 设计 有 多 种 不 同方 法 。 单 处 理 器 系统 只 有 一 个 处 理 器 ， 而 多 处 理 器 系统 包 
含 两 个 或 更 多 处 理 器 ， 并 共享 内 存 与 外 设 。 最 为 常见 的 多 处 理 器 设计 技术 为 对 称 多 处 理 器 技 
术 (SMP)， 其 中 所 有 处 理 器 可 以 视 为 对 等 ， 而 且 和 披 此 独立 运行 。 集 群 系统 是 一 种 特殊 的 多 
处 理 器 系统 ， 它 是 通过 局 域 网 连接 的 多 个 计算 机 系统 组 成 的 。 

为 了 充分 利用 CPU， 现代 操作 系统 采用 多 道 程序 设计 : 允许 多 个 作业 同时 位 于 内 存 ， 
从 而 保证 CPU 总 有 一 个 作业 可 以 执行 。 分 时 系统 是 多 道 程序 系统 的 扩展 ， 它 采用 调度 算法 ， 
以 快速 切换 作业 ， 好 像 每 个 作业 同时 执行 。 

操作 系统 必须 确保 计算 机 系统 的 正确 运行 。 为 了 防止 用 户 干预 系统 的 正常 运行 ， 硬 件 会 
有 两 种 模式 : 用 户 模式 和 内 核 模式 。 许 多 指令 (如 IO 指令 和 停机 指令 ) 都 是 特权 的 ， 只 能 
在 内 核 模式 下 执行 。 操 作 系 统 驻 留 的 内 存 也 应 加 以 保护 ， 以 防止 用 户 程序 修改 。 定 时 器 可 以 
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防止 无 穷 循 环 。 这 些 工具 (如 双 模 式 、 特 权 指 令 、 内 存 保护 、 定 时 器 中 断 ) 是 操作 系统 使 用 
的 基本 单元 ， 用 以 实现 系统 的 正确 运行 。 


学 习 操 作 系 统 

学 习 操 作 系 统 从 未 像 现 在 这 样 有 趣 ， 也 从 未 这 样 简单 过 。 开 源 运 动 极 大 影响 了 操作 
系统 ， 许 多 (如 Linux, BSD UNIX, Solaris 以 及 部 分 Mac OS X) 都 有 二 进 制 (执行 ) 代 
码 和 源 代码 。 有 了 源 代 码 就 可 从 内 部 来 学 习 操作 系统 。 过 去 ， 我 们 只 能 通过 文档 和 操作 系 
统 行为 来 回答 问题 ; 现在 ， 我 们 可 以 通过 研究 源 代 码 本 身 来 回答 问题 。 

现 已 不 再 具有 商业 价值 的 操作 系统 也 已 开源 了 ， 这 可 以 让 我 们 了 解 这 些 系统 在 更 少 
CPU、 内 存 和 存储 资源 时 是 如 何 工 作 的 。 有 关 开 源 操作 系统 项 目的 较 全 清单 ， 可 以 参见 
http://dmoz.org/Computers/Software/Operating_Systems/Open_Source/。 

再 者 ， 虚 拟 化 技术 逐渐 成 为 一 个 主流 的 (通常 免费 的 ) 计算 机 功能 。 例 如 ，VMware 
(http://www.vmware.com) 提供 了 一 个 免费 的 Windows 的 “player”， 可 以 运行 数 百 个 免 
费 的 “虚拟 设备 ”。Virtualbox ( http:/www.virtualbox.com) 提供 了 一 个 免费 的 、 开 源 的 、 
可 运行 在 许多 操作 系统 上 的 虚拟 机 管理 器 。 通 过 这 些 工 具 ， 学 生 无 需 专门 硬件 ， 就 能 尝试 
数 百 种 的 操作 系统 。 

另外 ， 现 代 计 算 机 和 现代 操作 系统 有 许多 专门 硬件 的 模拟 器 ， 以 允许 操作 系统 运行 
在 “本 土 ” 硬件 上 。 例 如 ，Mac OS X 可 运行 一 个 DECSYSTEM-20 的 模拟 器 ， 进 而 引导 
TOPS-20， 装 入 纸 带 器 ， 修 改 和 编译 新 的 TOPS-20 内 核 。 有 兴趣 的 学 生 可 以 上 网 查找 有 
关 该 系统 的 原始 论文 和 文档 。 

开源 操作 系统 也 有 助 于 让 学 生成 为 操作 系统 的 开发 者 。 只 要 具有 一 定 的 知识 、 精 力 
和 网 络 ， 学 生 甚 至 能 够 创建 一 个 新 的 操作 系统 的 发 布 。 以 前 ， 得 到 源 代码 是 困难 的 或 不 可 
能 的 。 现在， 只 要 有 兴趣 、 有 时 间 和 有 磁盘 空间 ， 就 可 访问 源 代码 。 


进程 (或 作业 ) 是 操作 系统 的 基本 工作 单元 。 进 程 管理 包括 创建 和 删除 进程 、 提 供与 其 
[48] 他 进程 通信 和 同步 机 制 。 操 作 系 统管 理 内 存 ， 以 跟踪 内 存 的 哪 部 分 被 使 用 以 及 被 谁 使 用 。 操 

作 系统 还 负责 动态 分 配 和 释放 内 存 空 间 。 操 作 系 统 也 管理 存储 空间 ， 包 括 提供 文件 系统 来 管 
理 文件 和 目录 ， 以 及 管理 大 容量 存储 器 设备 的 空间 。 

操作 系统 也 应 注重 本 身 及 其 用 户 的 保护 和 安全 问题 。 保 护 措施 用 来 控制 进程 或 用 户 访问 
计算 机 系统 资源 。 安 全 措施 用 来 抵御 计算 机 系统 受到 的 来 自 外 部 或 内 部 的 攻击 。 

操作 系统 使 用 了 一 些 常用 数据 结构 ， 如 列表 、 扒 栈 、 队 列 、 树 、 哈 希 函 数 、 映 射 和 位 
图 等 。 

计算 环境 有 很 多 。 传 统计 算 环境 为 桌面 PC 和 笔记 本 PC， 通 常 连 到 计算 机 网 络 。 移 动 
计算 环境 为 手持 智能 手机 和 平板 电脑 ， 这 些 设备 具有 专门 的 特点 。 分 布 式 系统 允许 用 户 共 
享 通过 网 络 连接 的 、 在 地 理 位 置 上 分 散 的 计算 机 资源 。 服 务 的 提供 可 采用 客户 机 / 服务 器 模 
式 ， 也 可 采用 对 等 模式 。 虚 拟 化 技术 可 将 一 台 计 算 机 硬件 虚拟 化 成 多 个 不 同 执行 环境 。 云 计 
算 采用 分 布 式 系统 ， 将 服务 抽象 成 云 ， 以 便 远 方 用 户 也 可 访问 资源 。 实 时 操作 系统 用 于 嵌入 
式 环境 ， 如 消费 设备 、 汽 车 和 机 器 人 。 

免费 软件 运动 创建 了 数 千 个 开源 软件 项 目 ， 包 括 操作 系统 。 有 了 这 些 项 目 ， 学 生 可 以 
通过 源码 来 学 习 ， 可 以 修改 和 测试 程序 ， 帮 助 查 错 和 纠 错 ， 研 究 成 熟 的 、 功 能 强大 的 操作 系 
统 、 编 译 器 、 工 具 、 用 户 界面 及 其 他 类 型 的 程序 。 
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GNU/Linux 和 BSD UNIX 为 开源 操作 系统 。 免 费 和 开源 的 优点 可 能 是 : 提高 了 开源 项 


目的 数量 和 质量 ， 使 用 这 些 项 目的 个 人 和 公司 也 增加 了 。 
习题 


| 


1.14 
1.15 


在 多 道 程序 和 分 时 环境 中 ， 多 个 用 户 同时 共享 一 个 系统 。 这 种 情况 可 能 导致 各 种 安全 问题 。 

a. 列 出 两 个 这 类 问题 。 

b. 我 们 是 否 能 够 确保 分 时 系统 达到 如 同 专用 系统 一 样 的 安全 程度 ? 请 解释 你 的 答案 。 

对 于 资源 利用 问题 ， 不 同类 型 操作 系统 具有 不 同 处 理 方式 。 针 对 以 下 情况 ， 哪 些 应 对 资源 加 以 认 

AEH: 

a. 大 型 机 或 小 型 机 

b. 与 服务 器 相连 的 工作 站 

c. 移动 计算 机 

在 何 种 环境 下 ， 分 时 系统 优 于 PC 或 单 用 户 工作 站 ? 

讨论 对 称 多 处 理 和 非 对称 多 处 理 的 区 别 。 多 处 理 系统 有 哪 三 个 优点 和 哪 一 个 缺点 ? 

集群 系统 与 多 处 理 器 系统 有 何不 同 ? 如何 让 同一 集群 的 两 个 机 器 互相 协作 以 便 提供 高 可 用 性 

服务 ? 

现 有 一 个 运行 数据 库 的 两 个 节点 集群 。 给 出 两 种 方法 ， 以 便 集 群 软件 管理 磁盘 数据 访问 。 讨 论 每 

种 方法 的 优点 和 缺点 。 

网 络 计算 机 与 传统 计算 机 有 何不 同 ? 讨论 在 哪些 情况 下 采用 网 络 计 算 机 更 为 有 利 。 

中 断 有 何 用 途 ? 中 断 和 陷阱 有 何不 同 ” 用 户 程序 能 否 有 意 产 生 陷阱 ?如 果 能 ， 为 什么 ? 

直接 内 存 访 问 用 于 高 速 UO 设备 ， 以 避免 CPU 日 益 增加 的 运行 负荷 。 

a. CPU 与 设备 如 何 协作 传递 ? 

b. CPU 如 何 得 知 内 存 操作 何 时 结束 ? 

c. 当 DMA 控制 器 传递 数据 时 ， 人 允许 CPU 执行 用 户 程序 。 这 两 者 会 不 会 冲突 ? 如 果 会 ， 讨 论 会 
产生 何 种 冲突 。 

有 些 计算 机 系统 不 支持 硬件 运行 的 特权 模式 。 能 否 为 这 些 计算 机 系统 构建 一 种 安全 操作 系 
统 ? 请 给 出 行 或 不 行 的 理由 。 

许多 SMP 系统 有 不 同 层次 的 缓存 ， 有 的 缓存 是 为 单个 处 理 核 专用 的 ， 而 有 的 缓存 是 为 所 有 处 理 
核 共用 的 。 为 什么 这 么 设计 缓存 ? 

现 有 一 个 类 似 图 1-6 所 示 的 SMP 系统 。 举 例 说 明 ， 为 什么 内 存 数据 有 可 能 不 同 于 本 地 缓存 
数据 。 

举例 说 明 在 下 列 环境 下 ， 如 何 维护 高 速 缓存 的 数据 一 致 性 ; 

a. 单 处 理 器 系统 

b. 多 处 理 器 系统 

c. 分 布 式 系统 

请 描述 一 种 机 制 以 加 强 内 存 保护 ， 防 止 一 个 程序 修改 与 其 他 程序 相关 的 内 存 。 

什么 类 型 的 网 络 (LAN R WAN) 最 能 适合 以 下 情况 ? 

a. 大 学 校园 的 学 生 会 

b. 一 个 大 学 的 多 个 省 内 校园 

c. 邻里 之 间 
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1.16 与 传统 PC 的 操作 系统 相 比 ， 移 动 设备 操作 系统 的 设计 有 何 难点 ? 
1.17 与 客户 机 一 服务 器 系统 相 比 ， 对 等 系统 有 何 优 点 ? 

1.18 ”哪些 分 布 应 用 适合 采用 对 等 系统 ? 

1.19 请 给 出 开源 操作 系统 的 优 缺 点 ， 也 请 给 出 各 自 的 支持 者 或 反对 者 。 


推荐 读物 

Brookshear ( 2012 ) 概述 了 计算 机 科学 。Corment 等 ( 2009 ) 全 面 讨 论 了 数据 结构 。 

Russinovich 和 Solomon ( 2009 ) 综述 了 Microsoft Windows， 并且 相当 详细 地 描述 了 系统 内 部 和 
部 件 的 技术 细节 。McDougall 和 Mauro (2007 ) 给 出 了 Solaris 操作 系统 的 内 部 细节 。Singh ( 2007 ) 
讨论 了 Mac OS X 的 内 部 细节 。Love (2010) 概述 了 Linux 操作 系统 ， 并 详 述 了 Linux 内 核 使 用 的 数 
据 结构 。 

有 关 操 作 系 统 的 教科 书 有 许多 ， 如 Stallings (2011), Deitel 等 (2004) 和 Tanenbaum (2007 ) 。 
Kurose 和 Ross (2013) 概述 了 计算 机 网 络 ， 包括 客 户 机 - 服务 器 系统 和 对 等 系统 。Tarkoma 和 La- 
gerspetz (2011) 考察 了 多 个 不 同 的 移动 操作 系统 ， 包 括 Android 与 iOS. 

Hennessy 和 Patterson (2012) 描述 了 10 系统 与 总 线 以 及 系统 架构 。Bryant 和 O’Hallaron ( 2010 ) 
从 计算 机 程序 员 角 度 全 面 介 绍 了 计算 机 系统 。 有 关 Intel 64 指令 集 和 特权 模式 的 详情 见 Intel ( 2011 )。 

有 关 开 源 的 历史 、 优 点 及 挑战 见 Raymond (1999), Free Software Foundation E YE http://www. 
gnu.org/philosophy/free-software-for-freedom.html 上 发 布 了 其 宗旨 。 关 于 Mac OS X 的 源码 ， 可 以 访问 
http://www.apple.com/opensource/。 

有 关 Richard Stallman 的 贡献 ， 可 访问 维基 百科 的 相应 条 目 http://en.wikipedia.org/wiki/Richard_ 
Stallman。 有 关 Multics 源码 ， 可 以 访问 http://web.mit.edu/multics-history/source/Multics_Internet_Server/ 


Multics sources.html。 
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操作 系统 结构 





操作 系统 提供 环境 以 便 执行 程序 。 操 作 系 统 的 内 部 结构 差别 很 大 ， 有 许多 不 同 的 组 织 方 
式 。 新 操作 系统 的 设计 是 一 项 重大 任务 。 在 开始 设计 前 ， 系 统 目 标的 明确 定义 非常 重要 。 这 
些 目标 是 选择 各 种 算法 和 策略 的 依据 。 

我 们 可 以 从 多 个 方面 来 分 析 操 作 系统 : 第 一 个 方面 注重 系统 提供 的 服务 ; 第 二 个 方面 
关注 用 户 和 程序 员 采 用 的 接口 ; 第 三 个 方面 是 系统 组 件 及 其 相互 关系 。 本 章 探讨 操作 系统 的 
这 三 个 方面 ， 以 便 展示 用 户 观点 、 程 序 员 观 点 和 操作 系统 设计 人 员 的 观点 。 我 们 研究 以 下 问 
题 : 操作 系统 提供 什么 服务 ， 如 何 提供 服务 ， 如 何 调试 ， 操 作 系统 设计 的 各 种 方法 是 什么 。 
最 后 ， 我 们 描述 如 何 生成 操作 系统 以 及 如 何 启 动 计算 机 的 操作 系统 。 

本 章 目标 

o 描述 操作 系统 为 用 户 、 进 程 和 其 他 系统 提供 的 服务 。 

© 讨论 构建 操作 系统 的 各 种 方式 。 

o 解释 如 何 安装 与 定制 操作 系统 以 及 如 何 启动 操作 系统 。 


2.1 操作 系统 的 服务 


操作 系统 提供 环境 以 便 执行 程序 。 它 为 程序 及 程序 用 户 提供 某 些 服务 。 当 然 ， 提 供 的 具 
体 服 务 随 操作 系统 不 同 而 不 同 ， 但 还 是 有 些 是 共同 的 。 这 些 操作 系统 服务 方便 了 程序 员 ， 使 
得 编程 更 加 容易 。 图 2-1 显示 操作 系统 服务 及 其 相互 关系 。 











图 2-1 操作 系统 服务 的 视图 


操作 系统 有 一 组 服务 ， 用 于 提供 用 户 功能 : 

e 用 户 界 面 : 几乎 所 有 操作 系统 都 有 用 户 界 面 (User Interface，UI)。 这 种 界面 可 有 多 
种 形式 。 一 种 是 命令 行 界 面 ( Command-Line Interface，CLI)， 它 采用 文本 命令 ， 并 
用 某 一 方法 输入 〈 例 如， 键盘 可 按 一 定格 式 和 选项 来 输入 命令 )。 另 一 种 是 批 处 理 界 
面 (batch interface)， 命 令 以 及 控制 这 些 命令 的 指令 可 以 编 成 文件 以 便 执 行 。 最 为 常 
用 的 是 图 形 用 户 界 面 ( Graphical User Interface，GUI)。 这 种 界面 是 一 种 视窗 系统 ， 
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它 具 有 通过 定位 设备 控制 UO 、 通 过 菜单 选择 、 通 过 键盘 输入 文本 和 选择 等 。 有 些 系 
统 还 提供 了 两 种 甚至 所 有 三 种 界面 。 

程序 执行 : 系统 应 能 加 载 程序 到 内 存 ， 并 加 以 运行 。 程 序 应 能 结束 执行 ， 包 括 正常 
或 不 正常 (并 给 出 错误 )。 

IO 操作 : 程序 运行 可 能 需要 IO， 这 些 IO 可 能 涉及 文件 或 设备 。 对 于 特定 设备 ， 
可 能 需要 特殊 功能 (如 烧 录 CD, DVD 或 者 清 屏 )。 为 了 效率 和 保护 ， 用 户 通常 不 应 
直接 控制 O 设备 。 因 此 ， 操 作 系 统 必须 提供 手段 以 便 执行 IO。 

文件 系统 操作 : 用 户 对 文件 系统 特别 感 兴趣 。 显 然 ， 程 序 需 要 读 写 文件 和 目录 ,也 
需要 根据 文件 名 称 来 创建 和 删除 文件 ， 搜 索 某 个 给 定 文件 ， 列 出 文件 信息 等 。 最 后 ， 
有 些 操作 系统 具有 权限 管理 ， 根 据 文件 所 有 者 允许 或 拒绝 对 文件 和 目录 的 访问 。 许 
多 操作 系统 提供 多 种 文件 系统 ， 有 的 允许 个 人 选择 ， 有 的 提供 特殊 功能 或 性 能 。 
通信 : 在 许多 情况 下 ， 一 个 进程 需要 与 另 一 个 进程 交换 信息 。 这 种 通信 可 能 发 生 在 
运行 于 同一 台 计算 机 的 两 个 进程 之 间 ， 也 可 能 发 生 在 运行 于 通过 网 络 连接 的 不 同 计 
算 机 的 进程 之 间 。 通 信和 实现 可 以 通过 共享 内 存 (shared memory) (两 个 或 多 个 进程 读 
写 共 享 内 存 区 域 )， 也 可 以 通过 消息 交换 (message passing) (符合 预先 定义 格式 的 信 
息 分 组 可 以 通过 操作 系统 在 进程 之 间 移 动 )。 

错误 检测 : 操作 系统 需要 不 断 检测 错误 和 更 正 错误 。 错 误 可 能 源 于 : CPU 或 内 存 便 
件 (如 内 存 错误 或 电源 故障 )、1/O 设备 (如 磁盘 奇偶 检验 出 错 、 网 络 连接 故障 、 打 印 
机 缺 纸 )、 用 户 程序 (如 算术 溢出 、 企 图 非法 访问 内 存 地 址 、 占 用 CPU 时 间 太 长 ) 等 。 
对 于 每 类 错误 ， 操 作 系统 必须 采取 适当 动作 ， 确 保 计 算 的 正确 和 一 致 。 有 时 ， 它 
只 能 停机 。 也 有 时 ， 它 可 以 终结 出 错 进程 ， 或 者 将 出 错 码 返 给 进程 以 便 进 程 检测 或 
纠正 。 


另外 ， 还 有 一 组 操作 系统 服务 ， 不 是 为 了 帮助 用 户 而 是 为 了 确保 系统 本 身 运 行 高 效 。 多 
用 户 系 统 通过 共享 计算 机 资源 可 以 提高 效率 。 


资源 分 配 : 当 多 个 用 户 或 多 个 作业 同时 运行 时 ， 每 个 都 应 分 配 资源 。 操 作 系 统管 理 
许多 不 同类 型 的 资源 。 有 的 资源 (如 CPU 周 期、 内 存 和 文件 存储 ) 可 能 要 有 特殊 的 
分 配 代码 ， 而 其 他 资源 (如 VO 设备) 可 能 只 需 通 用 的 请 求 和 释放 代码 。 例 如 ， 为 了 
更 好 地 使 用 CPU， 操 作 系 统 需要 采用 CPU 调度 算法 ， 以 便 考虑 CPU 的 速度 、 要 执 
行 的 作业 、 可 用 寄存 器 的 数量 和 其 他 因素 。 还 有 一 些 其 他 程序 可 以 分 配 打印 机 、USB 
存储 器 和 其 他 外 设 。 

记 账 : 我 们 需要 记录 用 户 使 用 资源 的 类 型 和 数量 。 这 种 记录 可 以 用 于 记 账 (以便 向 用 
户 收 费 )， 或 统计 使 用 量 。 统 计 使 用 量 对 研究 人 员 很 有 用 ， 可 用 于 重新 配置 系统 以 提 
高 计算 服务 。 

保护 与 安全 : 对 于 保存 在 多 用 户 或 联网 的 计算 机 系统 的 信息 ， 用 户 可 能 需要 控制 信 
息 使 用 。 当 多 个 独立 进程 并 发 执行 时 ， 一 个 进程 不 应 干预 其 他 进程 或 操作 系统 本 身 。 
保护 应 该 确保 可 以 控制 系统 资源 的 所 有 访问 。 系 统 安全 而 不 受 外 界 侵犯 ， 也 很 重要 。 
这 种 安全 要 求 用 户 向 系统 认证 自己 (利用 密码 )， 以 获取 系统 资源 的 访问 权限 。 安 全 
还 包括 保护 外 部 VO 设备 (如 网 络 适配器 ) 不 受 非 法 访问 ， 并 记录 所 有 非法 的 奖 入 企 
图 。 如 果 一 个 系统 需要 保护 和 安全 ， 那 么 系统 的 所 有 部 分 都 要 预防 。 一 条 链 的 强度 
与 其 最 弱 的 环节 一 样 。 
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2.2 用户 与 操作 系统 的 界面 


正如 前 面 所 述 ， 用 户 与 操作 系统 的 界面 有 多 种 方式 。 这 里 ， 讨 论 两 种 基本 方案 。 一 种 提 
供 命令 行 界面 或 命令 解释 程序 ( command interpreter)， 人 允许 用 户 直接 输入 命令 ， 以 供 操作 系 
统 执行 。 另 一 种 允许 用 户 通过 图 形 用 户 界面 (GUI) 与 操作 系统 交互 。 


2.2.1 命令 解释 程序 


有 的 操作 系统 内 核 包 括 命令 解释 程序 。 其 他 操作 系统 ， 如 Windows 和 UNIX， 将 命令 
解释 程序 当 作 一 个 特殊 程序 ， 当 一 个 任务 开始 或 用 户 首次 登录 时 (交互 系统 )， 该 程序 就 会 
运行 。 对 于 具有 多 个 可 选 命令 解释 程序 的 系统 ， 解 释 程 序 称 为 外 壳 (shell)。 例 如 ，UNIX 和 
Linux 系统 有 多 种 不 同 外 过 可 供用 户 选 择 ， 包 括 Bourne shell, C shell, Bourne-Again shell, 
Korn shell 等 。 也 有 第 三 方 的 外 壳 和 用 户 自己 编写 的 免费 外 壳 。 大 多 数 外 过 都 提供 相似 功能 ， 
用 户外 壳 的 选择 通常 基于 个 人 偏好 。 图 2-2 为 使 用 Solaris 10 Bourne shell 命令 解释 程序 的 
案例 。 


trenutano ~va) -~ -Gypts) (00: $3 as Jun- 2007) (global 

(/var/ tnp/system-contents/sc ree 5)# swap -sh 

total: 1.1C allocated + 190M reserved = 1,3C used, 1.66 available 
\(root@pbg-nv64- vm) -(12/pts) oo: 53 15-Jun-2007) tit 


' ' average: 33.29, 67.68, 36.81 
t@pdg-nvé4-va) -(13/pts)- (00: A = Jun. 2007) - (global) 
tnp/system-contents/scripts, ee! 
4:07pm up 17 day(s), 15:24, 3u: erage: 0.09, 0.11, 8.66 
U login@ idle iin pa what 


15Jun0718days /usr/bin/ssh-agent -- /usr/bif | 
eS 


pts/3 SUNT os 18 4w 
pts/4 
(rootgpbg_nv54_vm)-(14/prts)- ore or 02-Jul-2007)- Gaal 
|-(/var/tmp/systes-contents/scripts)# 





图 2-2 Solaris 10 Bourne shell 命令 解释 程序 


命令 解释 程序 的 主要 功能 是 ， 获 取 并 执行 用 户 指定 的 下 一 条 命令 。 这 层 提供 了 许多 命令 
来 操作 文件 : 创建 、 删 除 、 列 出 、 打 印 、 复 制 、 执 行 等 。MS-DOS 和 UNIX 的 外 壳 就 是 这 么 
工作 的 。 这 些 命令 的 实现 有 两 种 常用 方法 。 

一 种 方法 是 ， 命 令 解释 程序 本 身 包 含 代 码 以 执行 这 些 命令 。 例 如 ， 删 除 文件 的 命令 可 让 
命令 解释 程序 跳 转 到 相应 的 代码 段 ， 以 设置 参数 并 执行 相应 系统 调用 。 对 于 这 种 方法 ， 所 能 
提供 命令 的 数量 决定 命令 解释 程序 的 大 小 ， 因 为 每 个 命令 都 要 有 实现 代码 。 

另 一 种 方法 是 ， 通 过 系统 程序 实现 大 多 数 的 命令 ， 常 用 于 许多 操作 系统 ， 如 UNIX。 这 
样 ， 命 令 解 释 程序 不 必 理 解 命令 ， 而 只 要 通过 命令 确定 一 个 文件 ， 以 加 载 到 内 存 并 执行 。 因 
此 ，UNIX 删除 文件 的 命令 


rm fuke txt 
会 查找 名 为 rm 的 文件 ， 将 该 文件 加 载 到 内 存 ， 并 用 参数 file.txt 来 执行 ,与 rm 命令 相关 
的 功能 是 完全 由 文件 rm 的 代码 决定 的 。 这 样 ， 程 序 员 可 以 通过 创建 合适 名 称 的 新 文件 ， 轻 
松 地 向 系统 增加 新 命令 。 这 种 命令 解释 程序 可 能 很 小 ， 而 且 在 增加 新 命令 时 无 需 修改 。 
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2.2.2 图形 用 户 界面 


与 操作 系统 交互 的 第 二 种 方法 是 ， 采 用 用 户 友 好 的 图 形 用 户 界 面 (GUI). Auk, AP 
不 是 通过 命令 行 界面 直接 输入 命令 ， 而 是 利用 桌面 ( desktop ) 概念 ， 即 采用 基于 鼠标 的 视窗 
和 菜单 系统 。 用 户 移动 鼠标 ， 定 位 指针 到 屏幕 (桌面 ) 上 的 图 标 (icon)， 而 这 些 图 标 代表 程 
序 、 文 件 、 目 录 和 系统 功能 。 根 据 鼠 标 指 针 的 位 置 ， 按 下 鼠标 按钮 可 以 调用 程序 ， 选 择 文件 
和 目录 (也 称 为 文件 夹 (folder) )， 或 打开 菜单 命令 。 

图 形 用 户 界面 首次 出 现 于 20 世纪 70 年代， 部 分 源 于 Xerox PARC 研究 中 心 的 研发 工 
作 。 首 个 GUI 于 1973 年 出 现在 Xerox Alto 计算 机 上 。 不 过 ， 直 到 20 世纪 80 年 代 ， 随 着 
Apple Macintosh 计算 机 的 出 现 ， 图 形 界面 才 更 为 普及 。 多 年 来 ，Macintosh 操作 系统 ( Mac 
OS) 的 用 户 界面 经 历 了 很 多 变化 ， 最 重要 的 是 Mac OS X RAT Aqua 界面 。 微 软 公司 的 首 
个 Windows 版 本 ， 即 版 本 1.0, 为 MS-DOS 操作 系统 提供 了 GUI。 后 来 版 本 的 Windows 改 L57] 
BET GUI 外观 ， 并 增强 了 许多 功能 。 

由 于 鼠标 不 适用 于 大 多 数 的 移动 系统 ， 因 此 智能 手机 和 手持 平板 电脑 通常 采用 触摸屏 界 
面 。 这 样 ， 用 户 交 互 就 是 在 触摸 屏 上 做 手势 ( gesture)， 例如， 在 触摸 屏 上 用 手指 点 击 和 滑 
动 等 。 图 2-3 为 Apple iPad 的 触摸 屏 。 虽 说 早期 智能 手机 有 键盘 ， 但 现在 大 多 数 智能 手机 只 
有 触摸 屏 的 模拟 键盘 。 





图 2-3 iPad 的 触摸 屏 
传统 而 言 UNIX 系统 主要 采用 命令 行 界 面 。 不 过 ， 现 在 有 多 种 GUI， 包 括 公 共 桌 面 环 
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境 (Common Desktop Environment, CDE) fil X WP (X-Windows) 系统 ， 常 用 于 商用 版 本 
fy UNIX, ùN Solaris 和 IBM AIX 系统 。 为 外 ， 在 图 形 用 户 界面 设计 方面 ， 有 重要 贡献 的 还 
有 开源 项 目 ， 如 K 桌面 环境 (K Desktop Environment, KDE) 和 GNU 项 目的 GNOME 桌面 
(GNOME desktop). KDE 和 GNOME 桌面 都 可 运行 于 Linux 和 各 种 UNIX 系统 ， 并 且 采 用 
开源 许可 ， 这 意味 着 ， 根 据 许 可 ， 可 以 阅读 和 修改 这 些 桌 面 的 源 代 码 。 


2.2.3 ”界面 的 选择 


选择 命令 行 界 面 或 GUI 主要 取决 于 各 人 喜好 。 管 理 计 算 机 的 系统 管理 员 〈system admi- 
nistrator) 和 和 了解 系统 很 透彻 的 高 级 用 户 ( power user) 经 常 使 用 命令 行 界面 。 对 他 们 来 说 ， 
这 样 效 率 更 高 。 事 实 上 ， 有 的 系统 只 有 部 分 功能 可 通过 GUI 使 用 ， 而 其 他 不 常用 的 功能 则 
通过 命令 行 来 使 用 。 再 者 ， 命 令 行 界面 对 重复 性 的 任务 更 为 容易 ， 其 部 分 原因 是 它 具 有 可 编 
程 的 功能 。 例 如 ， 某 个 常见 任务 包括 一 组 命令 行 步 又 ， 而 且 这 些 步 又 可 编 成 一 个 文件 ， 而 
该 文件 可 像 程 序 一 样 运行 。 这 种 程序 不 是 编译 成 可 执行 代码 ， 而 是 由 命令 行 界面 来 解释 执行 
的 。 这 些 外 壳 脚 本 (shell script) 较 常 用 于 以 命令 行为 主 的 系统 ， 如 UNIX 和 Linux. 

相 比 之 下 ， 大 多 数 Windows 用 户 喜 欢 使 用 Windows GUI 环境 ， 而 几乎 从 不 使 用 MS- 
DOS 命令 行 外 壳 界面 。Macintosh 操作 系统 经 历 的 各 种 变化 提供 了 一 个 很 好 的 对 比 研究 。 最 
初 , Mac OS 没有 提供 命令 行 界面 ， 而 总 是 要 求 用 户 通过 GUI 与 之 交互 。 不 过 ， 随 着 Mac 
OS X 的 发 行 ( 其 部 分 实现 采用 了 UNIX 内 核 )， 它 包括 了 Aqua 界面 和 命令 行 界面 。 图 2-4 
为 Mac OS X GUI 的 屏幕 截图 。 
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图 2-4 Mac OS X GUI 
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用 户 界 面 可 随 系 统 的 不 同 甚至 系统 用 户 的 不 同 而 不 同 。 它 通常 不 属于 系统 内 核 。 因 此 ， 
友好 并 有 用 的 用 户 界面 设计 不 是 操作 系统 的 直接 功能 。 本 书 主要 研究 为 用 户 程序 提供 足够 服 
务 这 一 根本 问题 。 从 操作 系统 角度 ， 我 们 不 必 区 分 用 户 程序 和 系统 程序 。 


2.3 系统 调用 


系统 调用 (system call) 提供 操作 系统 服务 接口 。 这 些 调 用 通常 以 C 或 C++ 编写 ， 当 
然 ， 对 某 些 底层 任务 (如 需 直接 访问 硬件 的 任务 )， 可 能 应 以 汇编 语言 指令 编写 。 

在 讨论 操作 系统 如 何 提供 系统 调用 之 前 ， 首 先 通过 例子 来 看 看 如 何 使 用 系统 调用 : 编 
写 一 个 简单 程序 ， 从 一 个 文件 读 取 数据 并 复制 到 另 一 个 文件 。 程 序 首先 需要 输入 两 个 文件 名 
PR: 输入 文件 名 称 和 输出 文件 名 称 。 这 些 名 称 有 许多 不 同 的 给 定 方法 ， 这 取决 于 操作 系统 设 
计 。 一 种 方法 是 ， 让 程序 询问 用 户 这 两 个 文件 名 称 。 对 于 交互 系统 ， 该 方法 包括 一 系列 的 系 
统 调用 : 先 在 屏幕 上 输出 提示 信息 ， 再 从 键盘 上 读 取 定义 两 个 文件 名 称 的 字符 。 对 于 基于 鼠 
标 和 图 标的 系统 ， 一 个 文件 名 称 的 菜单 通常 显示 在 窗口 内 。 用 户 通过 鼠标 选择 源 文 件 名 称 ， 
另 一 个 类 似 窗 口 可 以 用 来 选择 目的 文件 名 称 。 这 个 过 程 需 要 许多 IO 系统 调用 。 

在 得 到 两 个 文件 名 称 后 ， 该 程序 打开 输入 文件 并 创建 输出 文件 。 每 个 操作 都 需要 一 个 系 
统 调 用 。 每 个 操作 都 有 可 能 遇 到 错误 情况 ， 进 而 可 能 需要 其 他 系统 调用 。 例 如 ， 当 程序 设法 
打开 输入 文件 时 ， 它 可 能 发 现 该 文件 不 存在 或 者 该 文件 受 保 护 而 不 能 访问 。 在 这 些 情况 下 ， 
程序 应 在 控制 台 上 打印 出 消息 〈 另 一 系列 系统 调用 )， 并 且 非 正常 地 终止 〈 另 一 个 系统 调用 )。 
如 果 输 入 文件 存在 ， 那 么 必须 创建 输出 文件 。 可 能 发 现 具 有 同一 名 称 的 输出 文件 已 存在 。 这 
种 情况 可 以 导致 程序 中 止 ( 一 个 系统 调用 )， 或 者 可 以 删除 现 有 文件 ( 男 一 个 系统 调用 ) 并 创 
建新 的 文件 ( 男 一 个 系统 调用 )。 对 于 交互 系统 ， 男 一 选择 是 询问 用 户 (一 系列 的 系统 调用 
以 输出 提示 信息 并 从 控制 台 读 入 响应 ) 是 否 需要 替代 现 有 文件 或 中 止 程序 。 

现在 两 个 文件 已 设置 好 ， 可 进入 循环 ， 以 读 取 输入 文件 (一 个 系统 调用 )， 并 写 到 输出 
文件 ( 男 一 个 系统 调用 )。 每 个 读 和 写 都 应 返回 一 些 关 于 各 种 可 能 错误 的 状态 信息 。 对 于 输 
入 ,程序 可 能 发 现 已 经 到 达 文 件 的 结束 ,或 者 在 读 过 程 中 发 生 了 硬件 故障 (如 奇偶 检验 错 
误 )。 对 写 操 作 ， 也 可 能 出 现 各 种 错误 ， 这 取决 于 输出 设备 〈 例 如， 没有 磁盘 空间 )。 

最 后 ， 在 复制 了 整个 文件 后 ， 程 序 可 以 关闭 两 个 文件 〈 另 一 个 系统 调用 )， 在 控制 台 或 
视窗 上 写 一 个 消息 (更 多 系统 调用 )， 最 后 正常 结束 (最 后 一 个 系统 调用 )。 图 2-5 显示 了 这 
个 系统 调用 序列 。 

正如 以 上 所 述 ， 即 使 简单 程序 也 可 能 大 量 使 用 操作 系统 。 通 常 ， 系 统 每 秒 执行 成 千 上 万 
的 系统 调用 。 不 过 ， 大 多 数 程 序 员 不 会 看 到 这 些 细节 。 通 常 ， 应 用 程序 开发 人 员 根 据 应 用 编 
程 接口 ( Application Programming Interface, API) 来 设计 程序 。API 为 方便 应 用 程序 员 规 定 
了 一 组 函数 ， 包 括 每 个 函数 的 输入 参数 和 返回 值 (程序 员 所 想得到 的 )。 有 三 组 常见 API 可 
为 应 用 程序 员 所 用 : 适用 于 Windows 系统 的 Windows API, JHF POSIX 系统 的 POSIX 
API (这 包括 几乎 所 有 版 本 的 UNIX、Linux 和 Mac OS X) 以 及 适用 于 Java 虚拟 机 的 Java 
API。 程 序 员 通过 操作 系统 提供 的 函数 库 来 调用 API。 对 运行 于 UNIX 和 Linux 的 用 C 语言 
编写 的 程序 ， 该 库 名 为 libc。 注 意 ， 除 非特 别 说 明 ， 贯 穿 本 书 的 系统 调用 名 称 为 通用 的 。 每 
个 操作 系统 对 于 每 个 系统 调用 都 有 自己 的 名 称 。 

在 后 台 ，API 孙 数 通常 为 应 用 程序 员 调 用 实际 的 系统 调用 。 例 如 ，Windows Ki 
数 CreateProcess() (显然 用 于 创建 一 个 新 进程 ) 实际 调用 Windows 内 核 的 系统 调用 
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NTCreateProcess() 。 





图 2-5 如 何 使 用 系统 调用 的 例子 


为 什么 应 用 程序 员 更 喜欢 根据 API 来 编程 ， 而 不 是 采用 实际 系统 调用 呢 ? 这 么 做 有 多 

个 原因 。 一 个 好 处 涉及 程序 的 可 移植 性 。 应 用 程序 员 根据 API 设计 程序 ， 以 希望 程序 能 在 

任何 支持 同一 API 的 系统 上 编译 并 执行 (虽然 在 现实 中 体系 差异 往往 使 这 一 点 更 困难 )。 再 

者 ， 对 应 用 程序 员 而 言 ， 实 际 系统 调用 比 API 更 为 注重 细节 且 更 加 难 用 。 尽 管 如 此 ,在 API 

的 函数 和 内 核 中 的 相关 系统 调用 之 间 常 常 还 是 存在 紧密 联系 的 。 事 实 上 ， 许 多 POSIX 和 
Windows 的 API 还 是 类 似 于 UNIX, Linux 和 Windows 操作 系统 提供 的 系统 调用 。 


标准 API 的 例子 
作为 标准 API 的 一 个 例子 ， 分 析 一 下 用 于 UNIX 和 Linux 系统 的 函数 read()。 可 以 
通过 在 命令 行 上 输入 如 下 命令 得 到 这 个 函数 的 帮助 信息 : 


man read 
该 API 描述 如 下 : 
#include <unistd.h> 
ssize_t read(int fd, void *buf, size_t count) 
: Ea 
返回 值 函数 名 称 参数 


调用 函数 read() 的 程序 应 包括 头 文件 unistd.h， 这 是 因为 该 文件 定义 了 数据 类 型 
ssize_t 和 size t (还 有 许多 其 他 )。read() 的 传 入 和 参数 如 下 : 

e int fd; 要 读 的 文件 描述 符 。 

o void *buf: 数据 要 被 读 到 的 缓冲 区 。 

e size_t count: 要 被 读 到 缓冲 区 的 最 大 字 节 数 。 
当成 功 读 入 后 ， 会 返回 读 取 的 字 节 数 。 返 回 值 为 0 表示 文件 结束 。 如 果 出 错 ， 会 返回 
一 1 。 
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对 大 多 数 的 程序 设计 语言 ， 运 行 时 支持 系统 (由 编译 器 直接 提供 的 函数 库 ) 提供 了 系统 
调用 接口 ( system-call interface)， 以 链接 到 操作 系统 的 系统 调用 。 系 统 调用 接口 截取 API K 
数 的 调用 ， 并 调用 操作 系统 中 的 所 需 系 统 调 用 。 通 常 ， 每 个 系统 调用 都 有 一 个 相关 数字 ， 而 
系统 调用 接口 会 根据 这 些 数 字 来 建立 一 个 索引 列表 。 系 统 调用 接口 就 可 调用 操作 系统 内 核 中 
的 所 需 系统 调用 ， 并 返回 系统 调用 状态 与 任何 返回 值 。 

调用 者 无 需 知 道 如 何 实现 系统 调用 ， 而 只 需 遵循 API， 并 知道 在 调用 系统 调用 后 操作 系 
统 做 了 什么 。 因此， 通过 API， 操 作 系 统 接口 的 大 多 数 细节 可 隐藏 起 来 ， 且 可 由 运行 时 库 来 
管理 。API、 系 统 调用 接口 和 操作 系统 之 间 的 关系 如 图 2-6 所 示 ， 它 说 明 在 用 户 应 用 程序 调 
用 了 系统 调用 open() 后 ,操作 系统 是 如 何 处 理 的 。 






open() 
系统 调用 
open() 的 实现 


返回 
图 2-6 用 户 应 用 程序 调用 系统 调用 open() 的 处 理 

系统 调用 因 所 用 计算 机 的 不 同 而 不 同 。 通 常 ， 除 了 所 需 的 系统 调用 外 ， 还 要 提供 其 他 
信息 。 这 些 信息 的 具体 类 型 和 数量 根据 特定 操作 系统 和 调用 而 有 所 不 同 。 例 如 ， 为 了 获取 输 
人 ， 可 能 需要 指定 作为 源 的 文件 或 设备 以 及 用 于 存放 输入 的 内 存 区 域 的 地 址 和 长 度 。 当 然 ， 
设备 或 文件 和 长 度 也 可 以 隐 含 在 调用 内 。 

向 操作 系统 传递 参数 有 三 种 常用 方法 。 最 简单 的 是 通过 寄存 器 来 传递 参数 。 不 过 ， 有 
时 参数 数量 会 比 寄存 器 多 。 这 时 ， 这 些 参数 通常 存在 内 存 的 块 或 表 中 ， 而 块 或 表 的 地 址 通过 
寄存 器 来 传递 (图 2-7). Linux 和 Solaris 就 采用 这 种 方法 。 参 数 也 可 通过 程序 放 在 或 压 入 
(pushed) 到 堆栈 (stack)， 并 通过 操作 系统 弹出 (popped)。 有 的 系统 偏爱 块 或 堆栈 方法 ， 因 
为 这 些 方 法 并 不 限制 传递 参数 的 数量 或 长 度 。 


系统 调用 
13 的 代码 





操作 系统 
图 2-7 通过 表 来 传递 参数 
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2.4 系统 调用 的 类 型 


系统 调用 大 致 可 分 为 六 大 类 : 进程 控制 (process control)、 文 件 管理 ( file manipula- 
tion)、 设 备 管理 (device manipulation)、 信 息 维护 (information maintenance)、 通 信 (commu- 
nication) 和 保护 ( protection)。2.4.1 一 2.4.6 节 将 简要 描述 操作 系统 可 能 提供 的 各 种 类 型 的 
系统 调用 。 大 多 数 系统 调用 都 与 后 面 几 章 讨论 的 概念 和 功能 有 关 。 图 2-8 概括 了 操作 系统 通 
常 提 供 的 各 种 类 型 的 系统 调用 。 如 前 所 述 ， 本 书 讨论 的 系统 调用 通常 为 通称 。 不 过 ， 举 例会 
用 Windows、UNIX 和 Linux 的 系统 调用 的 实际 名 称 。 


* 进程 控制 
“结束 、 中 止 
加载、 执行 
o 创建 进程 、 终 止 进程 
“获取 进程 属性 、 设 置 进程 属性 
o 等待 时 间 
o 等待 事件 、 信 和 号 事件 
“分 配 和 释放 内 存 
“文件 管理 
。 创 建文 件 、 删 除 文件 
“打开 、 关 闭 
" 读 、 写 、 重 新 定位 
。 获 取 文 件 属性 、 设 置 文件 属性 
"设备 管理 
° 请求 设备 、 释 放 设 备 
。 读 、 写 、 重 新 定位 
o 获取 设 备 属性 、 设 置 设备 属性 
时 辑 附 加 或 分 离 设备 
“信息 维护 
。 获 取 时 间或 日 期 、 设 置 时 间或 日 期 
“获取 系统 数据 、 设 置 系统 数据 
“获取 进程 、 文 件 或 设备 属性 
“设置 进程 、 文 件 或 设备 属性 
“通信 
。 创 建 、 删 除 通信 连接 
。 发 送 、 接 收 消息 
“传送 状态 信息 
“附加 或 分 离 远程 设备 





图 2-8 系统 调用 的 类 型 


2.4.1 进程 控制 


执行 程序 应 能 正常 (end() ) 或 异常 (abort () ) 停止 执行 。 如 果 一 个 系统 调用 异常 停止 
当前 执行 的 程序 ， 或 者 程序 运行 遇 到 问题 并 引起 错误 陷阱 ， 那 么 有 时 转 储 内 存 到 磁盘 ， 并 
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生成 错误 信息 。 内 存 信息 转 储 到 磁盘 后 ， 可 用 调试 器 (debugger) 来 确定 问题 原因 (调试 器 
为 系统 程序 ， 用 以 帮助 程序 员 发 现 和 纠正 错误 (bug) )。 无 论 是 正常 情况 还 是 异常 情况 ， 操 
作 系 统 都 应 将 控制 转 到 调用 命令 解释 程序 。 命 令 解 释 程序 接着 读 和 人 下 个 命令 。 对 于 交互 系 
统 ， 命 令 解 释 程序 只 是 简单 读 人 下 个 命令 ， 而 假定 用 户 会 采取 合适 命令 以 处 理 错误 。 对 
于 GUI 系统 ， 弹 出 窗口 可 用 于 提醒 用 户 出 错 ， 并 请 求 指 引 。 对 于 批 处 理 系统 ， 命 令 解 释 
程序 通常 终止 整个 作业 ， 并 继续 下 个 作业 。 当 出 现 错误 时 ， 有 的 系统 可 能 允许 特殊 的 恢复 
操作 。 如 果 程 序 发 现 输入 有 错 并 且 想 要 异常 终止 ,那么 它 也 可 能 需要 定义 错误 级 别 。 错 误 
越 严重 ， 错 误 参 数 的 级 别 也 越 高 。 通 过 将 正常 终止 的 错误 级 别 定义 为 0， 可 以 把 正常 和 异 
常 终止 放 在 一 起 处 理 。 命 令 解释 程序 或 后 面 的 程序 可 以 利用 这 种 错误 级 别 来 自动 确定 下 个 
动作 。 

执行 一 个 程序 的 进程 或 作业 可 能 需要 加 载 (Load()) 和 执行 (execute()) 另 一 个 程序 。 
这 种 功能 允许 命令 解释 程序 来 执行 一 个 程序 ， 该 命令 可 以 通过 用 户 命令 、 鼠 标点 击 或 批 处 
理 命 令 来 给 定 。 一 个 有 趣 的 问题 是 : 加 载 程序 终止 时 会 将 控制 返回 到 哪里 ? 与 之 相关 的 问题 
E: 原 有 程序 是 否 失 去 或 保存 了 ， 或 者 可 与 新 的 程序 一 起 并 发 执行 ? 


Windows 和 UNIX 系统 调用 的 示例 


Windows UNIX 
进程 控制 CreateProcess() fork() 
ExitProcess() exit () 
WaitForSingleObject() wait( 
文件 管理 CreateFile() open() 
ReadFile() read() 
WriteFile() write() 
CloseHandle() close() 
设备 管理 SetConsoleMode() ioct1() 
ReadConsole() read() 
WriteConsole() write() 
信息 维护 GetCurrentProcessID() getpid() 
SetTimer() alarm() 
Sleep() sleep() 
通信 CreatePipe() pipe() 
CreateFileMapping() shm_open() 
MapView0fFile() mmap () 
保护 SetFileSecurity() chmod () 
InitlializeSecurityDescriptor() umask () 
SetSecurityDescriptorGroup() chown () 


如 果 新 程序 终止 时 控制 返回 到 现 有 程序 ， 那 么 必须 保存 现 有 程序 的 内 存 映像 。 因 此 ， 
事实 上 创建 了 一 个 机 制 ， 以 便 一 个 程序 调用 另 一 个 程序 。 如 果 两 个 程序 并 发 继续 ， 那 么 也 
就 创建 了 一 个 新 作业 或 进程 ， 以 便 多 道 执 行 。 通 常 ， 有 一 个 系统 调用 专门 用 于 这 一 目的 
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(create_process() BK submit_job()), 

如 果 创 建 了 一 个 新 的 作业 或 进程 或 者 一 组 作业 或 进程 ， 那 么 我 们 应 能 控制 执行 。 这 种 
控制 要 能 判定 和 重 置 进程 或 作业 的 属性 ， 包 括 作 业 的 优先 级 、 最 大 允许 执行 时 间 等 (get- 
process_attributes() 和 set_process_attributes() )。 如 果 发 现 创 建 的 进程 或 作业 不 

正确 或 者 不 再 需要 ， 那 么 也 要 能 终止 它 (terminate_process()) 。 


标准 C 程序 库 的 例子 

标准 C 程序 库 提 供 了 许多 UNIX 和 Linux 版 本 的 部 分 系统 调用 接口 。 举 个 例子 ， 假 
定 C 程序 调用 语句 Printf()。C 程序 库 动 持 这 个 调用 ， 并 调用 操作 系统 中 的 必要 系统 调 
用 《在 本 例 中 是 write() 系统 调用 )。C 程序 库 把 write) 的 返回 值 传递 给 用 户 程序 。 如 
下 所 示 : 








#include <stdio.h> 
int main() 
{ 


printf ("Greetings") ; 
. 


return 0; 


(o ) 
系统 调用 write() 


创建 了 新 的 作业 或 进程 后 ， 可 能 要 等 待 其 执行 完成 ， 也 可 能 要 等 待 一 定时 间 (wait 
time() )。 更 有 可 能 要 等 待 某 个 事件 的 出 现 ( wait_event() )。 当 事件 出 现时 ， 作 业 或 进程 
就 会 响应 (signal_event() )。 

通常 ， 两 个 或 多 个 进程 会 共享 数据 。 为 了 确保 共享 数据 的 完整 性 ， 操 作 系 统 通常 提供 系 
统 调 用 ， 以 允许 一 个 进程 锁定 (lock) 共享 数据 。 这 样 ， 在 解锁 之 前 ， 其 他 进程 不 能 访问 该 
数据 。 通 常 ， 这 样 的 系统 调用 包括 acquire_lock() 和 release_lock()。 这 类 系统 调用 用 
于 协调 并 发 进程 ， 将 在 第 6 章 详细 讨论 。 

进程 和 作业 控制 差异 很 大 ， 这 里 通过 两 个 例子 加 以 说 明 : 一 个 涉及 单 任务 系统 ， 另 一 
个 涉及 多 任务 系统 。MS-DOS 操作 系统 是 个 单 任 务 的 系统 ， 在 计算 机 启动 时 它 就 运行 一 个 
命令 解释 程序 (图 2-9a)。 由 于 MS-DOS 是 单 任 务 的 ， 它 采用 了 一 种 简单 方法 来 执行 程序 


Z2¢ PMRAM 49 


而 且 不 创建 新 进程 。 它 加 载 程序 到 内 存 ， 并 对 自身 进行 改写 ， 以 便 为 新 程序 提供 尽 可 能 多 
的 空间 (图 2-9b)。 接 着 ， 它 将 指令 指针 设 为 程序 的 第 一 条 指令 。 然 后 ， 运 行程 序 ， 或 者 错 
误 引 起 中 断 ， 或 者 程序 执行 系统 调用 来 终止 。 无 论 如 何 ， 错 误 代码 会 保存 在 系统 内 存 中 以 
便 以 后 使 用 。 之 后 ， 命 令 解释 程序 中 的 尚未 改写 部 分 重新 开始 执行 。 它 首先 从 磁盘 中 重新 
加 载 命 令 解 释 程序 的 其 他 部 分 。 然 后 ， 命 令 解 释 程序 会 向 用 户 或 下 个 程序 提供 先前 的 错误 
代码 。 

FreeBSD (W F Berkeley UNIX) 是 个 多 任务 系统 。 在 用 户 登 录 到 系统 后 ， 用 户 所 
选 的 外 壳 就 开始 运行 。 这 种 外 壳 类 似 于 MS-DOS 外 壳 : 按 用 户 要 求 ， 接 受命 令 并 执行 程 
序 。 不 过 ， 由 于 FreeBSD 是 多 任务 系统 ， 命 令 解 释 程序 在 另 一 个 程序 执行 ， 也 可 继续 执行 
(图 2-10 )。 为 了 启动 新 进程 ， 外 壳 执 行 系统 调用 fork() 。 接 着 ， 所 选 程序 通过 系统 调用 
exec() 加 载 到 内 存 ， 程 序 开 始 执行 。 根 据 命 令 执行 方式 ， 外 壳 要 么 等 待 进程 完成 ， 要 么 后 
台 执 行进 程 。 对 于 后 一 种 情况 ， 外 壳 可 以 马上 接受 下 个 命令 。 当 进程 在 后 台 运 行 时 ， 它 不 能 
直接 接受 键盘 输入 ， 这 是 因为 外 壳 已 在 使 用 键盘 。 因 此 IO 可 通过 文件 或 GUI 来 完成 。 同 
时 ， 用 户 可 以 让 外 壳 执 行 其 他 程序 ， 监 视 运 行进 程 状态 ， 改 变 程序 优先 级 等 。 当 进程 完成 
时 ， 它 执行 系统 调用 exit() 以 终止 ,并 将 0 或 非 0 的 错误 代码 返回 到 调用 进程 。 这 一 状态 
(或 错误 ) 代码 可 用 于 外 壳 或 其 他 程序 。 第 3 章 将 通过 一 个 使 用 系统 调用 fork() 和 exec() 
的 程序 例子 来 讨论 进程 。 





a) 系统 启动 时 b) 执行 程序 时 
图 2-9 MS-DOS 执行 状态 图 2-10 运行 多 个 程序 的 FreeBSD 





2.4.2 文件 管理 


第 10 章 和 第 11 章 将 深入 讨论 文件 系统 。 现 在 ， 我 们 讨论 一 些 有 关 文 件 的 常用 系统 调用 。 

首先 要 能 创建 ( create()) 和 删除 (delete()) 文件 。 这 两 个 系统 调用 需要 文件 名 
称 ， 还 可 能 需要 文件 的 一 些 属性 。 一 旦 文件 创建 后 ， 就 会 打开 ( open() ) 并 使 用 它 ， 也 会 读 
(read()), & (write() ) 或 重 定位 (reposition()) (例如 ， 重 新 加 到 文件 开头 ,或 直接 跳 
到 文件 末尾 )。 最 后 ， 需 要 关闭 (close() ) 文件 ， 表 示 不 再 使 用 它 了 。 

如 果 采 用 目录 结构 来 组 织 文件 系统 的 文件 ， 那 么 也 会 需要 同样 的 目录 操作 。 另 外 ， 不 管 
是 文件 还 是 目录 ， 都 要 能 对 各 种 属性 的 值 加 以 读 取 或 设置 。 文 件 属性 包括 : 文件 名 、 文 件 类 
型 、 保 护 码 、 记 账 信息 等 。 针 对 这 一 功能 ， 至 少 需 要 两 个 系统 调用 一 一 获取 文件 属性 〈get- 
file_attributes()) 和 设置 文件 属性 ( set_file_attributes())。 有 的 操作 系统 还 提供 
其 他 系统 调用 ， 如 文件 的 移动 (move() ) 和 复制 ( copy() )。 还 有 的 操作 系统 通过 代码 或 系 
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统 调用 来 完成 这 些 API 的 功能 。 其 他 的 操作 系统 可 能 通过 系统 程序 来 实现 这 些 功能 。 如 果 
系统 程序 可 被 其 他 程序 调用 ， 那 么 这 些 系 统 程序 也 就 相当 于 API 


2.4.3 设备 管理 


进程 执行 需要 一 些 资源 ， 如 内 存 、 磁 盘 驱 动 、 所 需 文件 等 。 如 果 有 可 用 资源 ， 那 么 系统 
可 以 允许 请 求 ， 并 将 控制 交 给 用 户 程序 ; 否则 ， 程 序 应 等 待 ， 直 到 有 足够 可 用 的 资源 为 止 。 

操作 系统 控制 的 各 种 资源 可 看 作 设 备 。 有 的 设备 是 物理 设备 (如 磁盘 驱动 )， 而 其 他 的 
可 当 作 抽象 或 虚拟 的 设备 (如 文件 )。 多 用 户 系统 要 求 先 请 求 (request()) 设备 ， 以 确保 设 
备 的 专门 使 用 。 在 设备 用 完 后 ， 要 释放 (release()) 它 。 这 些 函 数 类 似 于 文件 的 系统 调用 
open() 和 close()。 其 他 操作 系统 对 设备 访问 不 加 管理 。 这 样 带 来 的 危害 是 潜在 的 设备 争 
用 以 及 可 能 发 生 的 死 锁 ， 这 将 在 第 7 章 中 讨论 。 

在 请 求 了 设备 (并 得 到 ) 后 ， 就 能 如 同 对 文件 一 样 ， 对 设备 进行 读 (read())、 写 (write()), 
重 定位 (reposition() )。 事 实 上 , VO 设备 和 文件 极为 相似 ， 以 至 于 许多 操作 系统 如 UNIX 
都 将 这 两 者 组 合成 文件 -设备 结构 。 这 样 ， 一 组 系统 调用 不 但 用 于 文件 而 且 用 于 设备 。 有 
AY, W/O 设备 可 通过 特殊 文件 名 、 目 录 位 置 或 文件 属性 来 辨认 。 

用 户 界 面 可 以 让 文件 和 设备 看 起 来 相似 ， 即 便 内 在 系统 调用 不 同 。 在 设计 、 构 建 操作 系 
统 和 用 户 界 面 时 ， 这 也 是 要 加 以 考虑 的 。 


2.4.4 信息 维护 


许多 系统 调用 只 不 过 用 于 在 用 户 程 序 与 操作 系统 之 间 传 递 信 息 。 例 如 ， 大 多 数 操 
作 系 统 都 有 一 个 系统 调用 ， 以 便 返 回 当 前 的 时 间 (time()) 和 日 期 (date())。 还 有 的 
系统 调用 可 以 返回 系统 的 其 他 信息 ， 如 当前 用 户 数 、 操 作 系 统 版 本 、 内 存 或 磁盘 的 可 用 
量 等 。 

还 有 一 组 系统 调用 帮助 调试 程序 。 许 多 系统 都 提供 用 于 转 储 内 存 (dump() ) 的 系统 调 
用 。 对 于 调试 ， 这 很 有 用 。 程 序 trace 可 以 列 出 程序 执行 时 的 所 有 系统 调用 。 甚 至 微 处 理 
器 都 有 一 个 CPU 模式 ， 称 为 单 步 (single step)， 即 CPU 每 执行 一 条 指令 都 会 产生 一 个 陷阱 。 
调试 器 通常 可 以 捕获 到 这 些 陷 阱 。 

许多 操作 系统 都 提供 程序 的 时 间 曲 线 (time profile)， 用 于 表示 在 特定 位 置 或 位 置 组 合 上 
的 执行 时 间 。 时 间 曲 线 需要 跟踪 功能 或 固定 定时 中 断 。 当 定时 中 断 出 现时 ， 就 会 记录 程序 计 
数 器 的 值 。 如 有 足够 频繁 的 定时 中 断 ， 那 么 就 可 得 到 花 在 程序 各 个 部 分 的 时 间 统 计 信 息 。 

再 者 ， 操 作 系统 维护 所 有 进程 的 信息 ， 这 些 可 通过 系统 调用 来 访问 。 通 常 ， 也 可 用 系统 
调用 重 置 进程 信息 (get_process_attributes() fil set_process_attributes()), 3.1.3 
节 将 讨论 哪些 信息 通常 需要 维护 。 


2.4.5 通信 


进程 间 通 信 的 常用 模型 有 两 个 : 消息 传递 模型 和 共享 内 存 模 型 。 对 于 消息 传递 模型 
( message-passing model)， 通 信 进 程 通过 相互 交换 消息 来 传递 信息 。 进 程 间 的 消息 交换 可 以 
直接 进行 ， 也 可 以 通过 一 个 共同 邮箱 来 间接 进行 。 在 开始 通信 前 ， 应 先 建立 连接 。 应 知道 另 
一 个 通信 实体 名 称 ， 它 可 能 是 同一 系统 的 另 一 个 进程 ， 也 可 能 是 通过 网 络 相连 的 另 一 计算 机 
的 进程 。 每 台 网 络 计算 机 都 有 一 个 主机 名 (host name)， 这 是 众所周知 的 。 另 外 ， 每 台 主 机 
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也 都 有 一 个 网 络 标 识 符 ， 如 IP 地 址 。 类 似 地 ， 每 个 进程 有 进程 名 (process name)， 它 通常 
可 转换 成 标识 符 ， 以 便 操作 系统 引用 。 系 统 调用 get_hostid() 和 get_processid() 可 以 
执行 这 类 转换 。 这 些 标识 符 再 传 给 通用 系统 调用 open() 和 close() (由 文件 系统 提供 ), 或 
专用 系统 调用 open_connection() fil close_connection(), 这 取决 于 系统 通信 和 模型。 接 
受 进程 应 通过 系统 调用 accept_connection() 来 许可 通信 。 大 多 数 可 接受 连接 的 进程 为 专 
用 的 守护 进程 ( daemon)， 即 专用 系统 程序 。 它 们 执行 系统 调用 wait_for_connection(), 
在 有 连接 时 会 被 唤醒 。 通 信 源 称 为 客户 机 (client)， 而 接受 后 台 程 序 称 为 服务 器 (server)， 
它们 通过 系统 调用 read_message() 和 write_message() 来 交换 消息 。 系 统 调用 close_ 
connection() 终止 通信 。 

对 于 共享 内 存 模型 (shared-memory model)， 进 程 通过 系统 调用 shared_memory_create() 
和 shared_memory_attach() 创建 共享 内 存 ， 并 访问 其 他 进程 拥有 的 内 存 区 域 。 注 意 ， 操 
作 系 统 通常 需要 阻止 一 个 进程 访问 另 一 个 进程 的 内 存 。 共 享 内 存 要 求 两 个 或 多 个 进程 都 同意 
取消 这 一 限制 ， 这 样 它们 就 可 通过 读 写 共享 区 域 的 数据 来 交换 信息 。 这 种 数据 的 类 型 是 由 这 
些 进程 来 决定 的 ， 而 不 受 操作 系统 的 控制 。 进 程 也 负责 确保 不 会 同时 向 同一 个 地 方 进行 写 操 
作 。 这 些 机 制 将 在 第 6 章 讨 论 。 第 4 章 将 讨论 进程 概念 的 一 种 变形 ， 即 线程 (thread)， 它 们 
默认 共享 内 存 。 

上 面 讨论 的 两 种 模型 常用 于 操作 系统 ， 而 且 大 多 数 系统 两 种 都 实现 了 。 消 息 传递 对 少量 
数据 的 交换 很 有 用 ， 因 为 没有 冲突 需要 避免 。 与 用 于 计算 机 间 的 共享 内 存 相 比 ， 它 也 更 容易 
实现 。 共 享 内 存在 通信 方面 具有 高 速 和 便捷 的 特点 ， 因 为 当 通信 发 生 在 同一 计算 机 内 时 ， 它 
可 以 按 内 存 传输 速度 来 进行 。 不 过 ， 共 享 内 存 的 进程 在 保护 和 同步 方面 有 问题 。 


2.4.6 ”保护 


保护 提供 控制 访问 计算 机 的 系统 资源 的 机 制 。 过 去 ， 只 有 多 用 户 的 多 道 计 算 机 系统 才 
要 考虑 保护 。 随 着 网 络 和 因特网 的 出 现 ， 所 有 计算 机 (从 服务 器 到 手持 移动 设备 ) 都 应 考虑 
保护 。 

通常 ， 提 供 保护 的 系统 调用 包括 set_permission() 和 get_permission()， 用 于 设置 
资源 (如 文件 和 磁盘 ) 权限 。 系 统 调 用 allow_user() 和 deny_user() 分 别 用 于 允许 和 拒绝 
特定 用 户 访问 某 些 资源 。 

第 14 章 将 会 讨论 保护 ， 而 第 15 章 将 会 讨论 安全 这 一 更 大 问题 。 


2.5 系统 程序 


现代 操作 系统 的 另 一 特点 是 一 组 系统 程序 。 回 想 一 下 图 1-1， 它 描述 了 计算 机 的 逻辑 
层次 。 最 低层 是 硬件 ， 接 着 是 操作 系统 ， 然 后 是 系统 程序 ， 最 后 是 应 用 程序 。 系 统 程序 
(system program)， 也 称 为 系统 工具 (system utility)， 为 程序 开发 和 执行 提供 了 一 个 方便 的 
环境 。 有 的 系统 程序 只 是 系统 调用 的 简单 用 户 接 口 ， 而 其 他 的 可 能 相当 复杂 。 系 统 程序 可 分 
为 以 下 几 类 : 
e 文件 管理 。 这 些 程序 创建 、 删 除 、 复 制 、 重 新 命名 、 打 印 、 转 储 、 列 出 、 操 作文 件 
和 目录 。 
e 状态 信息 。 有 些 程序 可 从 系统 那里 得 到 日 期 、 时 间 、 内 存 或 磁盘 空间 的 可 用 数量 、 
用 户 数 或 其 他 状态 信息 。 还 有 一 些 则 更 为 复杂 ， 可 提供 详细 的 性 能 、 登 录 和 调试 信 
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息 。 通 常 ， 这 些 信 息 经 格式 化 后 ， 再 打印 到 终端 、 输 出 设备 或 文件 ,或 在 GUI 视窗 
中 显示 。 有 些 系统 还 支持 注册 表 (registry)， 可 用 于 存储 和 获取 配置 信息 。 
文件 修改 。 有 多 个 编辑 器 可 以 创建 和 修改 位 于 磁盘 或 其 他 存储 设备 上 的 文件 。 也 有 
专用 命令 ， 可 用 于 查找 文件 内 容 或 进行 文本 转换 。 
程序 语言 支持 。 常 用 程序 语言 (如 C、C++、Java 和 PERL 等 ) 的 编译 程序 、 汇 编程 序 、 
调试 程序 和 解释 程序 ， 通 常 与 操作 系统 一 起 提供 给 用 户 ， 或 可 另外 下 载 。 
程序 加 载 与 执行 。 程 序 一 旦 汇编 或 编译 后 ， 要 加 载 到 内 存 才 能 执行 。 系 统 可 以 提供 
绝对 加 载 程序 、 重 定位 加 载 程 序 、 链 接 编辑 器 和 覆盖 式 加 载 程序 。 系 统 还 要 提供 高 
级 语言 或 机 器 语言 的 调试 程序 。 
通信 。 这 些 程序 提供 在 进程 、 用 户 和 计算 机 系统 之 间 创 建 虚拟 连接 的 机 制 。 它 们 允 
许 用 户 在 彼此 的 屏幕 上 发 送 消息 ,浏览 网 页 ， 发送 电子 邮件 ， 远 程 登 录 ， 从 一 台 机 
器 向 另 一 台 机 器 传送 文件 。 
后 台 服 务 。 所 有 通用 系统 都 有 方法 ， 以 便 在 引导 时 创建 一 些 系 统 程序 的 进程 。 这 些 
进程 中 ， 有 的 执行 完 任 务 后 就 终止 ， 而 有 的 会 一 直 运 行 到 系统 停机 。 一 直 运 行 的 系 
HH, MAAR (service), FRB (subsystem) 或 守护 进程 。2.4.5 节 讨 论 了 一 
个 网 络 守护 进程 的 例子 。 这 个 例子 需要 一 个 服务 来 监听 网 络 连 接 请 求 ， 以 便 将 它们 
传 给 合适 的 进程 来 处 理 。 其 他 例子 包括 : 根据 指定 计划 启动 进程 的 进程 调度 器 、 系 
统 错误 的 监控 服务 和 打印 服务 器 等 。 通 常 ， 系 统 会 有 数 十 个 守护 进程 。 另 外 ， 有 
的 操作 系统 在 用 户 上 下 文 而 不 是 内 核 上 下 文 进行 重要 操作 时 ， 也 会 用 守护 进程 来 
进行 。 

除 系统 程序 外 ， 大 多 数 的 操作 系统 提供 解决 常见 问题 或 执行 常用 操作 的 程序 。 这 样 的 应 
用 程序 (application program) 包括 : 网 页 浏览 器 、 文 字 处 理 器 和 文字 排版 器 、 电 子 制 表格 软 
件 、 数 据 库 系统 、 编 译 器 、 绘 图 和 统计 分 析 包 以 及 游戏 等 。 

大 多 数 用 户 理 解 的 操作 系统 是 : 由 应 用 程序 和 系统 程序 而 不 是 系统 调用 来 决定 的 。 试 
想 一 下 PC。 当 计算 机 运行 Mac OS X 操作 系统 时 ， 用 户 可 能 看 到 GUI， 即 鼠标 和 窗口 界面 。 
或 者 ， 甚 至 在 某 个 窗口 内 ， 用 户 会 有 一 个 命令 行 UNIX 外 这。 两 者 使 用 同样 的 系统 调用 集 
合 ， 但 系统 调用 看 起 来 不 同 且 其 行为 也 不 同 。 或 许 让 用 户 看 起 来 更 乱 的 是 : 试想 一 下 从 Mac 
OS X 中 引导 Windows。 这 样 ， 同 一 计算 机 的 同一 用 户 会 有 两 个 完全 不 同 的 界面 和 两 组 不 同 
的 应 用 程序 ， 而 它们 使 用 同样 的 物理 资源 。 在 同样 的 硬件 上 ， 用 户 可 按 顺 序 或 并 发 使 用 多 个 
用 户 界面 。 


2.6 ”操作 系统 的 设计 与 实现 

本 节 讨论 操作 系统 设计 和 实现 面临 的 问题 。 虽 然 这 些 问题 没有 完整 的 解决 方案 ,但 是 有 
些 方法 还 是 行 之 有 效 的 。 
2.6.1 设计 目标 


系统 设计 的 首要 问题 是 ， 定义 目 标 和 规范 。 从 高 层 来 说 ， 系 统 设计 取决 于 所 选 硬 件 和 系 
统 类 型 : 批 处 理 、 分 时 、 单 用 户 、 多 用 户 、 分 布 式 、 实 时 或 通用 。 

除了 最 高 设计 层 外 ， 需 求 可 能 很 难说 清 。 不 过 ， 需 求 可 分 为 两 个 基本 大 类 : 用 户 目标 
(user goal) 和 系统 目标 (system goal) 
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用 户 要 求 系统 具有 一 定 的 优良 性 能 : 系统 应 该 便于 使 用 、 易 于 学 习 和 使 用 、 可 靠 、 安 全 
和 快速 。 当 然 ， 这 些 规范 对 于 系统 设计 并 不 特别 有 用 ， 因 为 如 何 实现 这 些 没有 定论 。 

研发 人 员 为 设计 、 创 建 、 维 护 和 运行 操作 系统 ， 也 可 定义 一 组 相似 要 求 : 操作 系统 应 易 
于 设计 、 实 现 和 维护 ， 也 应 灵活 、 可 靠 、 正 确 且 高 效 。 同 样 ， 这 些 要 求 在 系统 设计 时 并 不 明 
确 ， 并 可 能 有 不 同 的 理解 。 

总 之 ， 关 于 定义 操作 系统 的 需求 ， 没 有 唯一 的 解决 方案 。 现 实 中 ， 存 在 许多 类 型 的 系 
统 ， 这 也 说 明了 不 同 需求 会 产生 不 同 解决 方案 ， 以 便 用 于 不 同 环境 。 例 如 ，VxWorks (一 种 
用 于 机 入 式 系统 的 实时 操作 系统 ) 的 需求 与 MVS (用 于 IBM 大 型 机 的 多 用 户 、 多 访问 操作 
系统 ) 的 需求 相 比 ， 有 很 大 不 同 。 

操作 系统 的 分 析 与 设计 是 个 很 有 创意 的 工作 。 虽 然 没 有 教科 书 能 够 告诉 我 们 如 何 做 ， 但 
是 软件 工程 (software engineering) 的 主要 原则 还 是 有 用 的 。 现 在 就 来 讨论 这 些 。 


2.6.2 ”机 制 与 策略 


一 个 重要 原则 是 策略 (policy) 与 机 制 (mechanism) 的 分 离 。 机 制 决 定 如 何 做 ， 而 策略 
决定 做 什么 。 例 如 ， 定 时 器 (参见 1.5.2 节 ) 是 一 种 保护 CPU 的 机 制 ， 但 是 为 某 个 特定 用 户 
应 将 定时 器 设置 成 多 长 时 间 ， 就 是 一 个 策略 问题 。 

对 于 灵活 性 ， 策 略 与 机 制 的 分 离 至 关 重 要 。 策 略 可 随时 间或 地 点 而 改变 。 在 最 坏 情 况 
下 ， 每 次 策略 的 改变 都 可 能 需要 改变 底层 机 制 。 对 策略 改变 不 敏感 的 通用 机 制 将 是 更 可 取 
的 。 这 样 策略 的 改变 只 需 重新 定义 一 些 系统 参数 。 例 如 ， 现 有 一 种 机 制 ， 可 赋予 某 些 类 型 的 
程序 相对 更 高 的 优先 权 。 如 果 这 种 机 制 能 与 策略 分 离开 ， 那么 它 可 用 于 支持 IO 密集 型 程序 
应 比 CPU 密集 型 程序 具有 更 高 优先 级 的 策略 ， 或 者 支持 相反 策略 。 

微 内 核 操 作 系 统 (参见 2.7.3 节 ) 通过 实现 一 组 基本 且 简 单 的 模块 ， 将 机 制 与 策略 的 分 
离 用 到 了 极致 。 这 些 模块 几乎 与 策略 无 关 ， 通 过 用 户 创建 的 内 核 模块 或 用 户 程序 本 身 ， 可 以 
增加 更 高 级 的 机 制 与 策略 。 例 如 ， 看 一 下 UNIX 的 发 展 。 起 初 ， 它 采用 分 时 调度 。 而 对 最 新 
版 的 Solaris， 调 度 由 可 加 载 表 来 控制 。 根 据 当 前 的 加 载 表 ， 系 统 可 以 是 分 时 的 、 批 处 理 的 、 
实时 的 、 公 平分 享 的 或 其 他 任意 组 合 。 通 用 调度 机 制 可 以 通过 单个 10ad-new-table 命令 对 
策略 进行 重大 改变 。 另 一 极端 系统 是 Windows， 它 的 机 制 与 策略 都 已 编码 ， 以 确保 统一 的 系 
统 风 格 。 所 有 应 用 程序 都 有 类 似 界 面 ， 因 为 界面 本 身 已 在 内 核 和 系统 库 中 构造 了 。Mac OS X 
操作 系统 也 有 类 似 功 能 。 

对 于 所 有 的 资源 分 配 ， 策略 决 定 非常 重要 。 只 要 决定 是 否 分 配 资 源 ， 就 应 做 出 策略 决 
定 。 只 要 问题 是 “如 何 做 ”而 不 是 “做 什么 ” ， 就 要 由 机 制 来 决定 。 


2.6.3 ”实现 


在 操作 系统 被 设计 之 后 ， 就 应 加 以 实现 。 操 作 系 统 由 许多 程序 组 成 ， 且 由 许多 人 员 在 较 
长 时 间 内 共同 编写 ， 因 此 关于 实现 很 难 形成 通用 原则 。 

早期 ， 操 作 系统 是 用 汇编 语言 编写 的 。 现 在 ， 虽 然 有 的 操作 系统 仍然 用 汇编 语言 编写 , 
但 是 大 多 数 都 是 用 高 级 语言 (如 C) 或 更 高 级 的 语言 (如 C++) 来 编写 的 。 实 际 上 ， 操 作 系 
统 可 用 多 种 语言 来 编写 。 内 核 的 最 低层 可 以 采用 汇编 语言 。 高 层 函 数 可 用 C ; 系统 程序 可 
FAC 或 C++， 也 可 用 解释 型 脚本 语言 如 PERL 或 Python， 还 可 用 外 壳 脚 本 。 事 实 上 ， 有 的 
Linux 发 布 可 能 包括 所 有 这 些 语 言 编写 的 程序 。 
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首 个 不 用 汇编 语言 编写 的 系统 可 能 是 用 于 Burroughs 计算 机 的 主 控 程 序 ( Master Control 
Program, MCP). MCP 采用 ALGOL 语言 的 变种 来 编写 MIT 开发 的 MULTICS 主要 是 采 
用 系统 程序 语言 PL/1 来 编写 的 。Linux 和 Windows 操作 系统 内 核 主要 用 C 编写 ， 尽 管 有 小 
部 分 是 用 汇编 语言 来 编写 的 用 于 设备 驱动 程序 与 保存 和 恢复 寄存 器 状态 的 代码 。 

采用 高 级 语言 或 至 少 系 统 实现 语言 来 实现 操作 系统 的 优势 与 用 高 级 语言 来 编写 应 用 程序 
相同 : 代码 编写 更 快 ， 更 为 紧凑 ， 更 容易 理解 和 调试 。 另 外 ， 编 译 技术 的 改进 使 得 只 要 通过 
重新 编译 ， 就 可 改善 整个 操作 系统 的 生成 代码 。 最 后 ， 如 果 用 高 级 语言 来 编写 ， 操 作 系 统 更 
容易 移植 (port) 到 其 他 硬件 。 例 如 ，MS-DOS 是 用 Intel 8088 汇编 语言 编写 的 。 因 此 ， 它 
只 能 直接 用 于 Intel X86 类 型 的 CPU。( 注 意 ， 虽 说 MS-DOS 只 能 本 地 运行 于 Intel X86 类 型 
的 CPU， 但 是 X86 指令 集 模拟 器 可 允许 它 运 行 在 其 他 CPU 上 一 一 会 更 慢 ， 会 使 用 更 多 资 
源 。 正 如 第 1 章 所 提 到 的 ， 模 拟 器 (emulator) 程序 可 以 在 一 个 系统 上 复制 男 一 个 系统 的 功 
能 。) 而 Linux 操作 系统 主要 是 用 C 来 编写 的 ， 可 用 于 多 种 不 同 CPU， 如 Intel X86. Oracle 
SPARC 和 IBM PowerPC 等 。 

采用 高 级 语言 实现 操作 系统 的 缺点 仅仅 在 于 速度 的 降低 和 存储 的 增加 。 不 过 ， 这 对 当今 
的 系统 已 不 再 是 主要 问题 。 虽 然 汇编 语言 高 手 能 编写 更 快 、 更 小 的 子 程序 ， 但 是 现代 编译 器 
能 对 大 程序 进行 复杂 分 析 并 采用 高 级 优化 技术 生成 优秀 代码 。 现 代 处 理 器 都 有 很 深 的 流水 线 
和 很 多 功能 块 ， 它 们 要 比 人 类 更 容易 处 理 复杂 的 依赖 关系 。 

与 其 他 系统 一 样 ， 操 作 系 统 的 重大 性 能 改善 很 可 能 是 来 源 于 更 好 的 数据 结构 和 算法 ， 而 
不 是 优秀 的 汇编 语言 代码 。 另 外 ， 虽 然 操作 系统 很 大 ， 但 是 只 有 小 部 分 代码 对 高 性 能 是 关键 
的 ;中断 处 理 器 、LIO 管理 器 、 内 存 管理 器 及 CPU 调度 器 等 ， 可 能 是 关键 部 分 。 在 系统 编写 
完 并 能 正确 工作 后 ， 可 找 出 瓶颈 程序 ， 并 用 相应 汇编 语言 程序 来 蔡 换 。 


2.7 ”操作 系统 的 结构 


现代 操作 系统 庞大 而 复杂 ， 为 了 正常 工作 并 易于 修改 ， 应 当 认 真 设计 。 常 用 方法 是 将 这 
种 系统 分 成 子 系统 或 模块 ， 而 不 只 是 一 个 单 片 系统 ( monolithic system )。 每 个 模块 都 应 是 定 
义 明确 的 部 分 系统 ， 且 具有 定义 明确 的 输入 、 输 出 和 功能 。 第 1 章 简要 讨论 了 操作 系统 的 常 
用 模块 ， 本 节 讨 论 这 些 模块 如 何 连 接 起 来 以 构成 内 核 。 


2.7.1 简单 结构 


很 多 操作 系统 缺乏 明确 定义 的 结构 。 通 常 ， 这 些 操 
作 系 统 最 初 是 小 的 、 简 单 的 、 功 能 有 限 的 系统 ， 但 是 后 
来 渐渐 超出 了 原来 的 范围 。MS-DOS 就 是 一 个 这 样 的 操 
作 系 统 。 它 最 初 是 由 几 位 人 员 设 计 和 实现 的 ， 当 时 并 没 
有 想到 它 会 如 此 受 欢 迎 。 由 于 它 是 利用 最 小 空间 而 提供 
最 多 功能 ， 因 此 它 并 没有 被 仔细 地 划分 成 模块 。 图 2-11 
显示 了 其 结构 。 

MS-DOS 系统 并 没有 很 好 地 区 分 功能 的 接口 和 层次 。 
例如 ， 应 用 程序 能 够 访问 基本 的 IO 程序 ， 并 直接 写 到 ee 
显示 器 和 磁盘 驱动 。 这 种 自由 使 MS-DOS 易 受 错误 (或 i 
恶意 ) 程序 的 伤害 ， 因 此 用 户 程 序 出 错 会 导致 整个 系统 崩 图 2-11 MS-DOS 层次 结构 
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it. 49, MS-DOS 还 受 限 于 当时 的 硬件 。 所 用 的 Intel 8088 未 能 提供 双 模 式 和 硬件 保护 ， 
因此 MS-DOS 设计 人 员 除 了 允许 访问 基础 硬件 外 ， 没 有 其 他 选择 。 

另 一 个 例子 ， 即 最 初 的 UNIX 操作 系统 ， 采 用 有 限 结 构 。 与 MS-DOS 一 样 ，UNIX F 
始 也 受 限 于 硬件 功能 。 它 由 两 个 独立 部 分 组 成 : 内 核 和 系统 程序 。 内 核 又 分 为 一 系列 接口 和 
驱动 程序 ， 随 着 UNIX 的 发 展 ， 这 些 也 不 断 地 得 以 增加 和 和 扩展。 传统 的 UNIX 操作 系统 可 以 
按 一 定 程度 的 分 层 来 看 待 ， 如 图 2-12 所 示 。 系 统 调用 接口 之 下 和 物理 硬件 之 上 的 所 有 部 分 
为 内 核 。 内 核 通 过 系统 调用 ， 可 提供 文件 系统 、CPU 调度 、 内 存 管 理 和 其 他 操作 系统 功能 。 
总 的 来 说 ， 这 一 层 里 面包 含 了 大 量 功 能 。 这 种 单 片 结构 使 得 UNIX 难以 实现 与 设计 。 不 过 ， 
它 有 一 个 独特 的 性 能 优势 : 系统 调用 接口 和 内 核 通信 的 开销 非常 小 。 因 此 ，UNIX、Linux 
和 Windows 操作 系统 仍然 采用 这 种 简单 的 单 片 结构 。 





图 2-12 传统 的 UNIX 系统 结构 


2.7.2 DRA 


有 了 适当 的 硬件 支持 ， 操 作 系 统 可 分 成 许多 块 ， 与 原来 的 MS-DOS All UNIX 系统 所 允 
许 的 块 相 比 ， 这 些 块 更 小 且 更 合适 。 这 样 ， 操 作 系统 可 以 更 好 地 控制 计算 机 和 使 用 计算 机 的 
应 用 程序 。 在 改变 系统 的 内 部 工作 和 创建 模块 操作 系统 时 ， 开 发 人 员 有 更 多 自由 。 采 用 自 顶 
向 下 方法 ， 可 先 确定 总 的 功能 和 特征 ， 再 划分 成 模块 。 信 息 隐 藏 也 很 重要 ， 因 为 它 在 保证 程 
序 接口 不 变 和 程序 执行 功能 不 变 的 前 提 下 ， 人 允许 程序 
员 自 由 实现 低层 程序 。 

系统 的 模块 化 有 许多 方法 。 一 种 方法 是 分 层 法 
(layered approach)， 即 操作 系统 分 成 若干 层 (级 )。 最 
低层 ( 层 0 ) 为 硬件 ， 最 高 层 ON) 为 用 户 接口 。 这 
种 分 层 结构 如 图 2-13 所 示 。 

操作 系统 层 采用 抽象 对 象 ， 以 包括 数据 和 操纵 这 
些 数 据 的 操作 。 一 个 典型 的 操作 系统 层 ， 如 层 M， 包 
括 数据 结构 和 一 组 可 为 更 高 层 所 调用 的 程序 集 ， 而 层 
M 可 调用 更 低层 的 操作 。 

分 层 法 的 主要 优点 在 于 简化 了 构造 和 调试 。 所 选 
的 层次 要 求 每 层 只 能 调用 更 低层 的 功能 (操作 ) 和 服 图 2-13 ”分 层 的 操作 系统 
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务 。 这 种 方法 简化 了 系统 的 调试 和 验证 。 第 一 层 可 先 调 试 而 无 需 考 虑 系统 其 他 部 分 ， 这 是 
因为 根据 定义 ， 它 只 使 用 了 基本 硬件 (假设 是 正确 的 )， 以 便 实 现 功能 。 一 旦 第 一 层 调试 后 ， 
可 认为 它 能 正确 运行 ， 这 样 就 可 调试 第 二 层 ， 如 此 向 上 。 如 果 在 调试 某 层 时 发 现 错误 ， 那 么 
错误 应 在 这 层 上 ， 这 是 因为 其 低层 都 已 调试 好 了 。 因 此 ， 系 统 的 设计 和 实现 得 以 简化 。 

每 层 的 实现 都 只 是 利用 更 低层 所 提供 的 操作 ， 且 只 需 知 道 这 些 操作 做 了 什么 ， 而 并 不 需 
要 知道 这 些 操 作 是 如 何 实现 的 。 因 此 ， 每 层 要 为 更 高 层 隐藏 一 定 的 数据 结构 、 操 作 和 硬件 。 

分 层 法 的 主要 难点 在 于 合理 定义 各 层 。 由 于 每 层 只 能 利用 更 低层 的 功能 ， 因 此 有 必要 仔 
细 规 划 。 例 如 ， 用 于 备份 存储 (虚拟 内 存 算法 所 用 的 磁盘 空间 ) 的 设备 驱动 程序 应 位 于 内 存 
管理 程序 之 下 ， 这 是 因为 内 存 管理 需要 用 到 这 些 功 能 来 备份 存储 。 

有 些 要 求 并 不 这 么 明显 。 备 份 存储 驱动 程序 通常 在 CPU 调度 器 之 上 ， 这 是 因为 该 驱动 

[78] 需要 等 待 1/0 完成 并 且 CPU 还 要 进行 调度 。 不 过 ， 对 于 大 型 系统 ，CPU 调度 器 可 能 拥有 所 
有 活动 进程 的 更 多 信息 ， 以 至 于 不 能 全 部 保存 在 内 存 中 。 因 此 ， 这 些 信息 需要 换 人 和 换 出 内 
存 ， 从 而 要 求 备 份 存 储 驱动 程序 位 于 CPU 调度 器 之 下 。 

分 层 实现 的 最 后 一 个 问题 是 与 其 他 方法 相 比 效 率 稍 差 。 例 如 ， 当 一 个 用 户 程序 执行 IO 操作 
时 ， 它 执行 系统 调用 并 陷入 IO 层 , VO 层 会 调用 内 存 管 理 层 ， 内 存 管 理 层 接着 调用 CPU 调度 层 ， 
最 后 传递 到 硬件 。 在 每 一 层 ， 参 数 可 能 会 被 修改 ， 数 据 可 能 需要 传递 ， 等 等 。 每 层 都 为 系统 调用 
增加 额外 开销 。 最 终结 果 是 ， 与 非 分 层 的 系统 相 比 ， 这 样 的 系统 调用 需要 执行 更 长 时 间 。 

这 些 限 制 在 近年 来 引起 了 分 层 法 的 小 倒退 。 现 在 ， 设 计 采 用 功能 更 多 而 数量 更 少 的 分 
层 ， 这 样 不 但 提供 了 模块 化 代码 的 主要 优点 ， 而 且 避 免 了 各 层 的 定义 与 交互 的 问题 。 


2.7.3 WA 


正如 我 们 所 看 到 的 : 随 着 UNIX 的 不 断 壮 大 ， 其 内 核 也 变 得 更 大 且 更 难 管理 。20 世纪 
80 年 代 中 期 ， 卡 内 基 梅 隆 大 学 的 研究 人 员 开 发 了 一 个 称 为 Mach 的 操作 系统 ， 它 采用 微 内 
核 (microkernel) 技术 对 内 核 进行 模块 化 。 这 种 方法 构造 的 操作 系统 ， 从 内 核 中 删除 所 有 不 
必要 的 部 件 ， 而 将 它们 当 作 系 统 级 与 用 户 级 的 程序 来 实现 。 这 样 做 的 结果 是 内 核 较 小 。 关 于 
哪些 应 留 在 内 核 内 ， 而 哪些 可 在 用 户 空间 内 实现 ， 并 没有 定论 。 不 过 ， 通 常 微 内 核 会 提供 最 
小 的 进程 与 内 存 管 理 以 及 通信 功能 。 图 2-14 显示 了 一 个 典型 的 微 内 核 架 构 。 





图 2-14 典型 的 微 内 核 架 构 


微 内 核 的 主要 功能 是 ， 为 客户 端 程序 和 运行 在 用 户 空间 中 的 各 种 服务 提供 通信 。 通 信和 是 
通过 消息 传递 (message passing) 来 提供 的 ， 参见 2.4.5 节 。 例 如 ， 如 果 某 个 客户 程序 要 访问 
一 个 文件 ,那么 它 应 与 文件 服务 器 进行 交互 。 客 户 程序 和 服务 器 不 会 直接 交互 ， 而 是 通过 微 
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内 核 的 消息 传递 来 间接 通信 。 

微 内 核 方法 的 优点 之 一 是 便于 扩展 操作 系统 。 所 有 新 服务 可 在 用 户 空 间 内 增加 ， 因 而 
并 不 需要 修改 内 核 。 当 内 核 确实 需要 修改 时 ， 所 做 修改 也 会 很 小 ， 这 是 因为 微 内 核 本 身 就 很 
小 。 这 样 的 操作 系统 很 容易 从 一 种 硬件 平台 移植 到 男 一 种 硬件 平台 。 微 内 核 也 提供 了 更 好 的 
安全 性 和 可 靠 性 ， 这 是 由 于 大 多 数 服务 是 作为 用 户 进程 而 不 是 作为 内 核 进程 来 运行 的 。 如 果 
一 个 服务 出 错 ， 那 么 操作 系统 的 其 他 部 分 并 不 受 影响 。 

有 些 现代 操作 系统 采用 了 微 内 核 方 法 。Tru64 UNIX (前 身 是 Digital UNIX) 为 用 户 提 供 
T UNIX 界面 ， 但 是 它 是 用 Mach 微 内 核 来 实现 的 。Mach 微 内 核 将 UNIX 系统 调用 映射 成 
用 户 级 服务 的 适当 消息 。Mac OS X 内 核 (也 称 为 Darwin) 也 部 分 采用 了 Mach 微 内 核 。 

另 一 个 例子 是 QNX， 这 是 用 于 舱 入 式 系统 的 实时 操作 系统 。QNX Neutrino 微 内 核 提 供 
消息 传递 与 进程 调度 的 服务 。 它 也 处 理 低层 网 络 通信 和 和 硬件 中 断 。 所 有 QNX 的 其 他 服务 都 
通过 (运行 在 内 核 之 外 的 用 户 模 式 中 的 ) 标准 进程 来 提供 。 

遗憾 的 是 ， 由 于 增加 的 系统 功能 的 开销 ， 微 内 核 的 性 能 会 受 损 。 看 一 下 Windows NT 的 
发 展 。 它 的 首 个 版 本 采用 了 分 层 的 微 内 核 架 构 ， 其 性 能 不 如 Windows 95。Windows NT 4.0 
通过 将 有 些 层 从 用 户 空 间 移 到 内 核 空间 以 及 更 紧密 地 集成 这 些 层 来 提高 性 能 。 等 到 Windows 
XP Hf, Windows 架构 更 像 是 单 片 内 核 的 ， 而 不 是 微 内 核 的 。 


2.7.4 模块 


也 许 目前 操作 系统 设计 的 最 佳 方法 是 采用 可 加 载 的 内 核 模块 (loadable kernel module). 
这 里 ， 内 核 有 一 组 核心 组 件 ， 无 论 在 启动 或 运行 时 ， 内 核 都 可 通过 模块 链 入 额外 服务 。 这 种 
类 型 的 设计 常见 于 现代 UNIX (Solaris, Linux 和 Mac OS X) 以 及 Windows 的 实现 。 

这 种 设计 的 思想 是 : 内 核 提供 核心 服务 ， 而 其 他 服务 可 在 内 核 运行 时 动态 实现 。 动 态 
链接 服务 优 于 直接 添加 新 功能 到 内 核 ， 这 是 因为 对 于 每 次 更 改 ， 后 者 都 要 重新 编译 内 核 。 例 
如 ， 可 将 CPU 调度 器 与 内 存 管理 的 算法 直接 建立 在 内 核 中 ， 而 通过 可 加 载 模块 ， 可 以 支持 
不 同文 件 系统 。 

这 种 整体 系统 类 似 于 一 个 分 层 系 统 ， 其 中 每 个 内 核 部 分 都 有 已 定义 的 、 受 保护 的 接口 。 
但 它 比分 层 系统 更 加 灵活 ， 这 是 因为 任何 模块 都 可 以 调用 任何 其 他 模块 。 这 种 方法 也 类 似 于 
WARTE: 主 模块 只 有 核心 功能 ， 并 知道 如 何 加 载 模块 以 及 如 何 让 模块 进行 通信 。 但 它 更 
为 有 效 ， 因 为 模块 无 需 调 用 消息 传递 来 进行 通信 。 

Solaris 操作 系统 的 结构 如 图 2-15 所 示 ， 它 围绕 一 个 核心 内 核 有 7 种 类 型 的 可 加 载 内 核 
模块 : 

e 调度 类 

© 文件 系统 

e 可 加 载 系统 调用 

o 可 执行 格式 

e STREAMS 模块 

e 其 他 模块 

© 设备 和 总 线 驱 动 程序 

Linux 也 采用 可 加 载 内 核 模块 ， 主 要 用 于 设备 驱动 程序 和 文件 系统 。 创建 Linux 可 加 载 
内 核 模块 ， 将 作为 本 章 末尾 的 一 个 编程 练习 。 





图 2-15 Solaris 可 加 载 模块 


2.7.5 混合 系统 


实际 上 ， 很 少 有 操作 系统 采用 单一 的 、 严 格 定义 的 结构 。 相 反 ， 它 们 组 合 了 不 同 的 结 
构 ， 从 而 形成 了 混合 系统 ， 以 便 解 决 性 能 、 安 全 性 和 可 用 性 等 问题 。 例 如 ，Linux 和 Solaris 
都 是 单 片 的 ， 因 为 单一 地 址 空间 的 操作 系统 可 以 提供 非常 高 效 的 性 能 。 然 而 ， 它 们 也 是 模 
块 化 的 ， 这 样 新 的 功能 可 动态 添加 到 内 核 。Windows 在 很 大 程度 上 也 是 单 片 的 (同样 是 由 于 
性 能 原因 )， 但 它 保留 了 一 些微 内 核 的 典型 行为 ， 包 括 支持 作为 用 户 模式 进程 的 各 个 子 系统 
( 称 为 操作 系统 个 性 )。Windows 系统 也 支持 可 动态 加 载 的 内 核 模块 。 在 第 16 章 和 第 17 章 ， 
我 们 会 分 别提 供 Linux 和 Windows 7 的 案例 研究 。 接 下 来 ， 我 们 探讨 三 个 混合 系统 的 结构 : 
Mac OS X 操作 系统 以 及 两 个 著名 的 移动 操作 系统 iOS 和 Android. 
2.7.5.1 Mac OS X 

Apple Mac OS X 操作 系统 采用 混合 结构 。 如 图 2-16 所 示 ， 这 是 一 个 分 层 系统 。 顶 层 包 
fh Aqua 用 户 界 面 ( 见 图 2-4 ) 以 及 一 组 应 用 程序 环境 与 服务 。 特 别 是 ，Cocoa 环境 规定 了 
用 于 Objective-C 编程 语言 的 API， 以 编写 Mac OS X 的 应 用 程序 。 这 些 层 的 下 面 为 内 核 环 
境 (kernel environment)， 它 主要 包括 Mach 微 内 核 和 BSD UNIX 内 核 。Mach 微 内 核 提供 内 
存 管 理 、 远 程 过 程 调用 (RPC) 和 进程 间 通 信 (IPC)( 包 括 消息 传递 ) 以 及 线程 调度 。BSD 内 
核 提 供 了 一 个 BSD 的 命令 行 界面 、 网 络 和 文件 系统 的 支持 以 及 POSIX API (包括 Pthreads) 
的 实现 。 除 了 Mach 和 BSD 外 ， 内 核 环境 提供 了 一 个 IO Kit， 以 便 开发 设备 驱动 程序 和 动 
态 可 加 载 模块 (Mac OS X 称 之 为 内 核 扩展 (kernel extension) ) 。 如 图 2-16 所 示 ，BSD 的 应 
用 环境 可 以 直接 利用 BSD 的 功能 。 
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图 2-16 Mac OS X 结构 
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2.7.5.2 iOS 
iOS 是 一 款 手 机 操作 系统 ， 它 由 Apple 设计 ， 可 运行 于 其 智 
能 手机 (iPhone) 和 平板 电脑 (iPad) Eo iOS 以 Mac OS X 操作 
系统 为 基础 ， 拥 有 与 移动 设备 相关 的 附加 功能 ， 但 不 能 直接 运行 
Mac OS X 的 应 用 程序 。iOS 的 结构 如 图 2-17 所 示 。 Fr 
Cocoa Touch 为 用 于 Objective-C 的 API， 它 提供 了 多 个 框 
架 ， 以 便 开 发 可 运行 于 iOS 设备 上 的 应 用 程序 。Cocoa (上 面 所 图 2.17 Apple ios 结构 
述 的 ) 与 Cocoa Touch 的 根本 区 别 是 : 后 者 支持 移动 设备 的 独 有 
硬件 ， 如 触摸 屏 。 媒 体 服务 ( media service) 层 提供 图 形 、 音 频 和 视频 方面 的 服务 。 核 心服 
务 (core service) 层 提 供 多 种 功能 ， 包 括 支持 云 计算 和 数据 库 。 底 层 代 表 核 心 操 作 系 统 ， 它 
基于 图 2-16 所 示 的 内 核 环境 。 
2.7.5.3 Android 
Android 操作 系统 是 由 Open Handset Alliance (由 Google 主 导 ) 设计 的 ， 并 用 于 
Android 智能 手机 和 平板 电脑 。 虽 然 iOS 设计 成 运行 于 Apple 的 移动 设备 ， 并 且 为 闭 源 ,但 
是 Android 可 运行 于 各 种 移动 平台 ， 且 为 开源 ， 这 也 部 分 解释 了 为 什么 它 的 人 气 迅速 上 升 。 
Android 结构 如 图 2-18 所 示 。 








图 2-18 Google Android 结构 


Android 与 iOS 类 似 ， 采 用 分 层 方 法 ， 并 且 提 供 一 组 丰富 的 移动 应 用 程序 开发 框架 。 
底层 的 软件 为 Linux 内 核 ， 这 已 被 Google 所 修改 ， 并 且 其 发 布 与 正常 的 Linux 并 不 同步 。 
Linux 主要 用 于 支持 进程 、 内 存 以 及 硬件 设备 的 驱动 程序 ， 且 已 增加 电源 管理 。Android 运行 
环境 包括 一 套 核心 库 以 及 Dalvik 虚拟 机 。Android 设备 的 软件 设计 人 员 采 用 Java 语言 开发 应 
用 程序 。 不 过 ，Google 并 未 采用 标准 Java API， 而 是 开发 了 一 套 Android API 来 进行 Java F 
Ro Java 源 文 件 首 先 编译 为 Java 字 节 码 ， 然 后 翻译 成 可 执行 文件 ， 以 便 运 行 在 Dalvik 虚拟 
机 上 。Dalvik 虚拟 机 为 Android 而 设计 ; 并 针对 内 存 和 处 理 有 限 的 移动 设备 进行 了 优化 。 

用 于 Android 应 用 程序 的 库 包 括 : 用 于 开发 Web 浏览 器 的 框架 ( webkit)、 数 据 库 支持 
(SQLite) 以 及 多 媒体 等 。 库 libe 类 似 于 标准 CE, 但 要 小 得 多 ， 且 为 CPU 更 慢 的 移动 设备 
而 专门 设计 。 
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2.8 操作 系统 的 调试 


本 章 经 常 提 到 调试 。 这 里 ， 更 加 深入 讨论 一 下 调试 。 广 义 而 言 ， 调 试 (debugging) 是 查 
找 和 更 正 系统 (包括 硬件 和 软件 ) 错误 。 人 性 能 问题 为 贞 虫 (bug)， 因 此 调试 也 会 包括 性 能 优 
化 (performance turning)， 即 通过 解决 处 理 瓶 颈 ( bottleneck) 而 改善 性 能 。 本 节 探 讨 调试 过 
程 、 内 核 错误 及 性 能 问题 ， 而 硬件 调试 不 在 本 书 讨论 范围 之 内 。 


2.8.1 故障 分 析 


当 一 个 进程 发 生 故 障 时 ， 大 多 数 操作 系统 将 错误 信息 写 到 一 个 日 志文 件 (log file), B 
提醒 系统 操作 员 或 用 户 所 发 生 的 问题 。 操 作 系 统 也 会 进行 核心 转 储 ( core dump)， 即 进程 内 
存 的 捕获 ， 并 保存 到 一 个 文件 以 便 以 后 分 析 。( 在 计算 机 早期 ， 内 存 称 为 “核心 ”。) 运行 程 
序 和 核心 转 储 可 用 调试 器 来 分 析 ， 以 便 程序 员 分 析 进 程 的 代码 和 内 存 。 

用 户 级 进程 代码 的 调试 是 一 个 挑战 。 由 于 内 核 代 码 多 且 复 杂 、 硬 件 控制 以 及 用 户 级 调 
试 工具 的 缺乏 ， 操 作 系 统 的 内 核 调试 更 为 复杂 。 内 核 故障 称 为 崩溃 〈crash)。 当 发 生 骨 省 时 ， 
错误 信息 会 保存 到 一 个 日 志文 件 ， 并 且 内 存 状 态 会 保存 到 一 个 崩溃 转 储 (crash dump), 

对 于 操作 系统 调试 和 进程 调试 ， 由 于 不 同 的 任务 性 质 ， 经 常 使 用 不 同 的 工具 。 文 件 系统 
代码 的 内 核 故障 会 使 内 核 在 重启 前 将 状态 保存 到 文件 系统 上 而 产生 风险 。 因 此 ， 一 种 常见 技 
术 是 将 内 核 内 存 保存 到 硬盘 的 某 个 部 分 ， 而 该 部 分 不 包含 任何 文件 系统 。 当 内 核 检 测 到 一 个 
不 可 恢复 的 错误 时 ， 就 会 将 全 部 内 存 的 内 容 或 至 少 系统 内 存 的 内 核 部 分 保存 到 磁盘 区 域 。 当 
系统 启动 后 ， 有 个 进程 会 收集 这 个 区 域 的 数据 ， 并 将 它 写 到 文件 系统 的 骨 溃 转 储 文件 。 显 
然 ， 对 于 调试 普通 用 户 级 的 进程 ， 这 种 方法 就 没有 必要 了 。 


Kernighan 法 则 
调试 难度 是 编写 代码 的 两 倍 。 因 此 ， 根 据 定 义 ， 如 果 你 写 的 代码 非常 巧妙 ， 那 么 没 
有 人 足够 聪明 来 调试 它 。” 


2.8.2 性 能 优化 


前 面 说 过 ， 人 性 能 优化 是 通过 消除 处 理 瓶 颈 而 改善 性 能 。 为 了 找 出 瓶颈 ， 我 们 必须 能 够 监 
视 系 统 性 能 。 因 此 ， 操 作 系 统 应 有 一 些 手段 ， 以 便 计 算 和 显示 系统 行为 的 度量 。 有 几 个 操作 
系统 通过 生成 系统 行为 跟踪 列表 (trace listing) 来 做 到 这 一 点 。 所 有 相关 事件 及 其 时 间 和 其 
他 重要 参数 ， 都 记录 并 写 到 文件 。 之 后 ， 可 通过 分 析 程 序 来 处 理 日 志文 件 ， 以 确定 系统 性 能 
并 识别 瓶颈 与 低 效 处 。 这 样 的 跟踪 可 以 用 作 输 入 ， 以 模拟 建议 改进 的 系统 。 跟 踪 也 有 助 于 找 
到 操作 系统 行为 的 错误 。 

性 能 优化 的 另 一 方案 是 采用 专用 的 交互 工具 ， 以 便 用 户 和 管理 员 检查 各 种 系统 组 件 
的 状态 来 寻找 瓶颈 。 一 个 这 样 的 工具 为 UNIX 命令 top， 它 可 显示 系统 使 用 的 资源 ， 以 及 
使 用 这 些 资源 的 有 序 进 程 列 表 。 其 他 工具 可 以 显示 磁盘 IO 的 状态 、 内 存 分 配 以 及 网 络 流 
量 等 。 

Windows 任务 管理 器 ( Windows Task Manager) 是 Windows 系统 的 一 个 类 似 工 具 。 该 
任务 管理 器 提供 的 信息 包括 : 当前 应 用 程序 和 进程 的 信息 、CPU 和 内 存 的 使 用 以 及 网 络 的 
统计 数据 等 。 图 2-19 为 任务 管理 器 的 一 个 屏幕 快照 。 
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让 操作 系统 在 运行 时 更 易 理解 、 调 试 和 优化 ， 是 一 个 活 牙 的 研发 领域 。 新 一 代 内 核 支持 
的 性 能 分 析 工 具 在 如 何 实现 这 些 目标 方面 有 了 显著 改善 。 接 下 来 ,我 们 讨论 这 样 一 个 典型 工 
具 : Solaris 10 DTrace 动态 跟踪 工具 。 


2.8.3 DTrace 


DTrace 工具 可 以 动态 探测 正在 运行 的 系统 ， 包 括 用 户 进程 和 内 核 。 通 过 D 编程 语言 ， 
可 查询 这 些 探 测 ， 以 确定 有 关内 核 、 系 统 状 态 和 进程 活动 的 大 量 信息 。 例 如 ， 图 2-20 显示 
了 一 个 应 用 程序 执行 系统 调用 ( ioct1())， 以 及 内 核 为 实现 这 一 系统 调用 进行 的 函数 调用 。 
以 “U” 结 束 的 行为 在 用 户 态 下 执行 ， 而 以 “K” 结 束 的 行为 在 内 核 态 下 执行 。 


# ./all.d ‘pgrep xclock' XEventsQueued 
dtrace: script './all.d' matched 52377 probes 
CPU FUNCTION 
0 -> XEventsQueued 
0 -> _XEventsQueued 
-> _XllTransBytesReadable 
<- _X11TransBytesReadable 
-> _X11TransSocketBytesReadable 
<- _X11TransSocketBytesreadable 
-> ioctl 
二 ioctl 
-> gett 
-> set_active fd 
<- set_active fd 
<- getf 
-> get_udatamodel 
<- get_udatamodel 


AAARARARCCaCaAcaca 


ooooococcocococo 


-> releasef 
-> clear_active fd 
<- clear_active_fd 
-> cv_broadcast 
<- cv_broadcast 
<- releasef 
<= ioctl 
<- ioctl 
<- _XEventsQueued 
<- XEventsQueued 








ooococoocece: 
GGAARARAARRAR 





图 2-19 Windows 任务 管理 器 图 2-20 Solaris 10 DTrace 跟踪 内 核 的 系统 调用 


如 果 没 有 工具 理解 两 组 代码 以 及 控制 交互 ， 则 几乎 不 可 能 调试 用 户 级 与 内 核 级 的 代码 交 
互 。 这 种 工具 若 要 真正 有 用 ， 它 就 应 能 调试 系统 的 任何 部 分 ， 包 括 那 些 没 有 考虑 到 调试 的 代 
码 区 域 ， 并 且 它 不 应 影响 系统 的 可 靠 性 。 这 种 工具 也 应 只 有 极 小 的 性 能 影响 : 当 不 使 用 时 ， 
它 最 好 没有 影响 ， 当 使 用 时 ， 它 只 有 恒定 比例 的 影响 。DTrace 工具 满足 了 这 些 要 求 ， 提 供 
了 一 个 动态 的 、 安 全 的 、 低 影响 的 调试 环境 。 

在 DTrace 框架 和 工具 可 用 于 Solaris 10 之 前 ， 内 核 调 试 通常 盖 着 神秘 的 面纱 ， 只 能 
通过 偶然 事件 和 陈旧 的 代码 或 工具 来 完成 。 例 如 ，CPU 有 一 个 断 点 功能 ， 它 可 停止 执行 
并 允许 调试 器 检查 系统 状态 ; 然后 可 以 继续 执行 ， 直 到 下 个 断 点 或 终止 。 这 种 方法 不 能 用 
于 多 用 户 操 作 系统 内 核 ， 这 是 因为 它 会 对 系统 的 所 有 用 户 带 来 负面 影响 。 章 析 (profiling) 
通过 周期 采样 指令 指针 ， 可 确定 所 执行 的 代码 ， 以 显示 统计 趋势 (而 不 是 个 体 活动 )。 内 
核 包 含 代码 ， 在 特定 情况 下 可 以 生成 特定 数据 ， 但 是 这 样 会 减 慢 内 核 的 运行 ， 因 此 往往 不 
包括 这 类 代码 。 
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相反 ,DTrace 可 运行 在 生产 系统 (production system， 即 运行 重要 或 关键 应 用 程序 的 系统 ) 中 ， 
并 且 不 对 系统 造成 损害 。 它 的 启用 会 减缓 系统 的 运行 ， 但 是 执行 完 后 就 将 系统 重 置 到 调试 前 的 状 
态 。 这 个 工具 应 用 广泛 而 且 强 大 。 它 可 以 广泛 调试 系统 发 生 的 一 切 (无 论 是 用 户 级 或 内 核 级 ， 还 
是 用 户 级 与 内 核 级 之 间 )。 它 也 可 以 深入 代码 ， 以 便 显示 单个 CPU 指令 或 内 核 程序 的 活动 。 

DTrace 的 组 成 包括 编译 器 、 框 架 、 框 架 内 的 探头 提供 者 及 探头 使 用 者 。DTrace 探头 提 
供 者 创建 探头 。 内 核 结构 用 于 跟踪 提供 者 创建 的 所 有 探头 。 这 些 探头 保存 在 哈 希 表 数 据 结构 
中 ， 它 是 通过 名 称 来 哈 希 的 ， 并 通过 唯一 探头 标识 来 索引 。 当 启用 一 个 探头 时 ， 所 要 探测 区 
域 的 一 些 代 码 会 被 改写 ， 即 先 调用 dtrace_probe(probe_identifier)， 然 后 继续 进行 代 
码 的 原来 操作 。 不 同 的 提供 者 创建 不 同类 型 的 探头 。 例 如 ， 内 核 系 统 调用 探头 的 工作 方式 不 
同 于 用 户 进程 探头 的 ， 也 不 同 于 LO 探头 的 。 

DTrace 有 一 个 在 内 核 内 运行 的 编译 器 ， 可 生成 字 节 码 。 这 种 代码 是 “安全 ”的 ， 由 编 
译 器 来 保证 。 例 如 ， 没 有 循环 ， 只 有 明确 要 求 才能 修改 内 核 状 态 等 。 只 有 具有 DTrace 特权 ” 
的 用 户 〈 或 “ 根 ” 用 户 )， 才 可 使 用 DTrace， 因 为 它 可 以 检索 私有 的 内 核 数据 (并 且 根 据 要 
求 可 以 修改 数据 )。 所 生成 的 代码 运行 在 内 核 中 ， 并 启用 探头 。 它 也 能 启用 处 于 用 户 态 的 探 
头 使 用 者 ， 以 及 启用 这 两 者 之 间 的 通信 。 

DTrace 探头 使 用 者 是 对 探头 及 其 结果 感 兴趣 的 代码 。 使 用 者 申请 由 提供 者 创建 的 探头 。 
当 探 头 激活 后 ， 它 就 发 出 由 内 核 管理 的 数据 。 在 内 核 中 ， 由 于 激活 了 探头 ， 会 执行 称 为 启用 
控制 块 ( Enabling Control Block, ECB) 的 动作 。 如 果 多 个 使 用 者 对 同一 探头 感 兴趣 ， 那 么 
这 个 探头 可 引起 多 个 ECB 执行 。 每 个 ECB 包含 一 个 谓词 (“ 认 语句 ”)， 可 筛选 出 对 应 ECB. 
和 否则， 会 执行 ECB 的 动作 列表 。 最 常见 的 动作 是 捕捉 数据 的 某 些 比特 ， 如 探头 的 执行 点 的 
某 个 变量 的 值 。 通 过 收集 这 些 数据 ， 可 以 得 到 用 户 或 内 核 动作 的 一 个 完整 图 像 。 再 者 ， 从 用 
户 空间 与 内 核 中 激活 的 探头 ， 可 以 显示 用 户 级 动作 如 何 引起 内 核 级 的 响应 。 这 些 数据 对 性 能 
监控 和 代码 优化 是 极为 有 用 的 。 

当 探 头 使 用 者 终止 ， 会 移 去 ECB。 当 探头 没有 ECB ， 会 移 去 该 探头 。 这 涉及 改写 代码 
以 移 去 dtrace_probe() 调用 ， 并 恢复 原来 的 代码 。 因 此 ， 在 创建 探头 前 和 删除 探头 后 ， 系 
统 完全 一 样 ， 仿 佛 没 有 发 生 探 测 。 

DTrace 设法 确保 探头 不 使 用 太 多 内 存 或 CPU 计算 ， 以 致 损害 正在 运行 的 系统 。 用 于 保 
存 探测 结果 的 缓冲 区 要 加 以 监控 ， 以 便 不 超过 默认 与 最 大 的 限制 。 探 头 执 行 的 CPU 时间 也 
要 加 以 监控 。 如 果 超 过 限制 ， 则 会 终止 使 用 者 及 其 他 出 错 探头 。 每 个 CPU 都 要 分 配 缓冲 区 ， 
以 避免 竞争 和 数据 丢失 。 

— Be D 代码 与 其 输出 示例 可 以 说 明 一 些 功能 。 下 面 的 程序 为 DTrace 的 代码 ， 用 于 启用 
调度 探头 〈 即 程序 运行 时 )， 并 记录 用 户 ID 为 101 的 每 个 进程 使 用 CPU 的 时 间 。 图 2-21 显 
示 了 该 程序 的 输出 ， 即 每 个 进程 使 用 CPU 的 时 间 (ANPP) 。 


sched: : :on-cpu 
uid == 101 


self->ts = timestamp; 


sched: : :off-cpu 
self->ts 


@time[execname] = sum(timestamp - self->ts); 
self->ts = 0; 


} 
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由 于 DTrace 属于 Solaris 10 操作 系统 的 开源 版 本 OpenSolaris， 并 且 没 有 冲突 的 许可 协 
议 ， 它 已 添加 到 其 他 操作 系统 。 例 如 ，DTrace 已 添加 到 


4 A # dtrace -s sched.d 
Mac OS X 和 FreeBSD, 并 且 由 于 独 特 功 能 很 有 可 能 EN dtrace: script "sched.d matched 6 probes 
`G 


进一步 扩展 。 其 他 操作 系统 ， 特 别 是 Linux 的 衍生 ， 也 


增加 了 内 核 跟踪 功能 。 还 有 其 他 操作 系统 开始 采用 由 多 | omi demon aoe 
个 单位 研发 的 性 能 和 跟踪 工具 ， 包 括 Paradyn 项 目 。 aie pict 
ome-panel 277864 

2.9 操作 系统 的 生成 op 374916 
mapping-daemon 385475 

操作 系统 可 以 为 某 场 所 的 某 台 机 器 进行 专门 设计 、 ee aes 
编码 和 实现 。 不 过 ， 操 作 系 统 通常 设计 成 能 运行 在 一 Xorg | 2579646 
类 计算 机 上 ， 这 些 计算 机 可 用 于 不 同 场所 ， 并 具有 不 ncaa see 
同 外 设 配置 。 对 于 某 个 特定 的 计算 机 场所 ， 应 配置 和 java 10769137 


生成 操作 系统 ， 这 一 过 程 有 时 称 为 系统 生成 (SYStem 
GENeration, SYSGEN). 
操作 系统 的 发 行 通常 采用 磁盘 、CD-ROM、DVD-ROM 或 “ISO” 镜 像 (采用 CD-ROM 
或 DVD_ROM 格式 的 文件 )。 为 了 生成 系统 ， 可 以 使 用 一 个 特殊 程序 。 这 个 SYSGEN 程序 
从 给 定 文件 读 取 或 询问 系统 操作 员 有 关 硬 件 系统 的 特定 配置 ， 或 直接 检测 硬件 以 决定 有 什么 
部 件 。 下 面 几 类 信息 应 确定 下 来 : 
© 使 用 什么 CPU? 什么 安装 选项 (扩展 指令 集 、 浮 点 运算 等 ) ? 对 于 多 CPU 系统 ， 可 
能 需要 描述 每 个 CPU。 

© 启动 盘 如 何 格式 化 ? 分 成 多 少 个 分 区 ? 每 个 分 区 的 内 容 是 什么 ? 

e 有 多 少 可 用 内 存 ? 有 些 系统 可 以 求 出 这 个 值 : 通过 对 内 存 位 置 一 个 个 地 引用 ， 直 到 
出 现 非法 地 址 ， 这 个 过 程 可 得 到 最 后 的 合法 地 址 及 可 用 内 存 的 数量 。 

© 有 什么 可 用 设备 ? 系统 要 知道 如 何 访问 每 个 设备 (设备 号 )、 设 备 中 断 号 、 设 备 类 型 
与 型 号 及 任何 特殊 设备 的 特性 。 

© 需要 什么 操作 系统 的 选项 ， 或 者 使 用 什么 参数 值 ? 这 些 选 项 或 参数 包括 : 应 使 用 多 
大 的 缓冲 区 、 所 需 CPU 调度 算法 的 类 型 、 所 支持 进程 的 最 大 数量 等 。 

这 些 信息 确定 后 ， 可 有 多 种 使 用 方法 。 一 种 极端 情况 是 完全 定制 ， 系 统管 理 员 可 以 修改 
操作 系统 源 代码 的 副本 。 接 着 重新 编译 操作 系统 。 数 据 声明 、 初 始 化 、 常 量 和 条 件 编译 ， 可 
以 生成 专门 用 于 所 述 系统 的 操作 系统 的 目标 代码 的 输出 。 

一 种 定制 稍微 少 些 的 情况 是 : 系统 描述 可 用 来 创建 表 ， 并 从 预先 已 编译 的 库 中 选择 模 
块 。 这 些 模块 链接 起 来 ， 可 以 生成 操作 系统 。 选 择 方法 是 : 虽然 允许 库 包 括 所 有 支持 IO 设 
备 的 驱动 程序 ， 但 是 只 有 所 需 的 才能 链 到 操作 系统 。 由 于 没有 重新 编译 ， 所 以 系统 生成 较 
快 ， 但 是 生成 的 系统 可 能 过 于 通用 。 

另外 一 种 极端 情况 是 : 可 以 构造 完全 由 表 驱 动 的 系统 。 所 有 代码 都 是 系统 的 组 
成 部 分 ， 选 择 发 生 在 执行 而 非 编 译 或 链接 时 。 系 统 的 生成 只 是 创建 适当 的 表 ， 以 描述 
系统 。 

这 些 方 法 的 主要 差别 是 : 生成 系统 的 大 小 和 通用 性 、 因 硬件 配置 改变 所 需 修改 的 方便 
性 。 为 支持 新 获得 的 图 形 终端 或 磁盘 驱动 ， 想 一 想 系统 修改 的 代价 。 当 然 ， 与 这 一 代价 相对 
应 的 是 修改 的 频率 。 


图 2-21 D 代码 的 输出 
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2.10 ”系统 引导 


生成 操作 系统 后 ， 它 应 为 硬件 所 使 用 。 但 是 硬件 如 何 知 道内 核 在 哪里 ， 或 者 如 何 
加 载 内 核 加载 内 核 以 启动 计算 机 的 过 程 ， 称 为 系统 引导 (booting)。 大 多 数 计算 机 系 
统 都 有 一 小 块 代码 ， 称 之 为 引导 程序 (bootstrap program) 或 引导 加 载 程序 (bootstrap 
loader)。 这 段 代 码 能 够 定位 内 核 ， 并 加 载 到 内 存 以 开始 执行 。 有 的 计算 机 系统 (如 PC) 
采用 两 个 步骤 ; 一 个 简单 引导 程序 从 磁盘 上 调 人 一 个 更 复杂 的 引导 程序 ， 而 后 者 再 加 载 
内 核 。 

当 CPU 收 到 一 个 重 置 事件 时 ， 例 如 上 电 开 机 或 重新 启动 ， 指 令 寄存 器 会 加 载 某 个 预先 
定义 的 内 存 位 置 ， 并 从 该 位 置 开 始 执行 。 该 位 置 就 是 初始 引导 程序 所 在 。 该 程序 为 只 读 存 储 
器 (Read-Only Memory, ROM) 形式 ， 因 为 系统 启动 时 RAM 处 于 未 知 状态 。 由 于 不 需要 初 
始 化 和 不 受 计算 机 病毒 的 影响 ， 用 ROM 是 很 方便 的 。 

引导 程序 可 以 完成 一 系列 任务 。 通 常 ， 有 一 个 任务 需要 运行 诊断 程序 来 确定 机 器 状态 。 
如 果 通 过 诊断 ， 则 程序 可 以 继续 启动 步 又 。 引 导 程 序 也 能 初始 化 系统 的 所 有 方面 : 从 CPU 
寄存 器 到 设备 控制 器 以 及 内 存 内 容 。 最 终 ， 它 启动 操作 系统 。 

有 些 系统 ， 如 手机 、 平 板 电脑 和 游戏 控制 器 ， 将 整个 操作 系统 保存 在 ROM 中。 对 于 
小 型 的 操作 系统 、 简 单 的 支持 硬件 和 耐用 的 操作 ， 将 操作 系统 存储 在 ROM 中 是 适合 的 。 该 
方法 有 一 个 问题 : 改动 引导 程序 代码 需要 改动 ROM 芯片 。 为 了 解决 这 个 问题 ， 有 些 系统 
采用 可 擦 可 编程 只 读 存储 器 (Erasable Programmable Read-Only Memory, EPROM), Xi 
一 种 只 读 存储 器 ,但 当 明 确 给 定 一 个 命令 时 就 会 变 为 可 写 的 。 所 有 形式 的 ROM 都 是 固件 
( firmware)， 因 为 它 的 特性 介 于 硬件 与 软件 之 间 。 通 常 ， 固 件 存在 的 问题 是 ， 执行 代码 比 在 
RAM 中 慢 。 有 些 系统 将 操作 系统 保存 在 固件 中 ， 而 在 要 执行 时 将 其 复制 到 RAM 中 ， 以 便 
执行 更 快 。 固 件 的 最 后 一 个 问题 是 相对 较 贵 ， 所 以 通常 只 有 少量 可 用 。 

对 大 型 操作 系统 (包括 大 多 数 的 通用 操作 系统 ， 如 Windows, Mac OS X 和 UNIX) 或 
经 常 改变 的 系统 ， 引 导 程 序 存放 在 固件 上 ， 而 操作 系统 存放 在 磁盘 上 。 在 这 种 情况 下 ， 引 
导 程 序 会 先进 行 诊断 ， 然 后 从 磁盘 固定 位 置 (如 第 0 块 ) 读 取 整 块 信息 到 内 存 ， 最 后 执 
行 引 导 块 (boot block) 的 代码 。 存 储 在 引导 块 的 程序 可 能 足以 加 载 整个 操作 系统 到 内 
存 ， 并 开始 执行 。 更 典型 地 ， 它 只 是 简单 的 代码 (因为 它 要 存放 在 单一 的 磁盘 块 上 )， 并 
且 只 知道 磁盘 的 地 址 以 及 引导 程序 其 余部 分 的 长 度 。GRUB 是 一 个 开源 的 例子 ， 用 于 引 
导 Linux 系统 。 所 有 磁盘 的 引导 程序 和 操作 系统 本 身 ， 通 过 向 磁盘 写 和 人 新 的 版 本 ， 就 可 
以 很 容易 地 改变 。 具 有 引导 分 区 ( 详 见 12.5.1 节 ) 的 磁盘 称 为 引导 盘 (boot disk) 或 系统 
# (system disk), 

整个 引导 程序 在 加 载 后 ， 就 可 遍历 文件 系统 以 寻找 操作 系统 内 核 ， 将 其 加 载 到 内 存 中 ， 
并 开始 执行 。 只 有 到 这 时 ， 才 说 系统 是 在 运行 (running ) 。 


2.11 小 结 

操作 系统 提供 大 量 服务 。 在 最 低层 ， 系 统 调用 允许 运行 程序 直接 向 操作 系统 发 出 请 求 。 
在 高 层 ， 命 令 解释 程序 或 外 壳 提 供用 户 不 必 编 写 程序 就 能 发 出 请 求 的 机 制 。 命 令 可 以 来 自 文 
件 ( 批 处 理 模式 )， 或 者 直接 来 自 终端 或 桌面 GUI (交互 模式 或 分 时 模式 ) 。 系 统 程序 可 以 满 


足 许 多 常见 用 户 请 求 。 
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请 求 类 型 随 请 求 级 别 而 改变 。 系 统 调用 级 别 应 提供 基本 功能 ， 如 进程 控制 、 文 件 管理 和 
设备 管理 等 。 高 级 别 的 请 求 可 由 命令 解释 程序 或 系统 程序 来 提供 ,但 需要 转换 成 一 系列 的 系 
统 调用 。 系 统 服务 可 以 分 成 几 大 类 : 程序 控制 、 状 态 请 求 和 1/O 请 求 。 程 序 错 误 可 作为 隐 性 
的 服务 请 求 。 

设计 一 个 新 的 操作 系统 是 一 项 重大 任务 。 在 开始 设计 前 ， 重 要 的 是 明确 定义 系统 目标 。 
所 需 的 系统 类 型 为 从 各 种 算法 和 所 需 策略 中 进行 选择 提供 了 依据 。 

在 整个 设计 周期 ， 应 认真 区 分 策略 决定 与 实现 细节 (机制 )。 如 果 策 略 决定 以 后 改变 ， 
这 种 区 分 可 以 提供 最 大 的 灵活 性 。 

在 操作 系统 设计 之 后 ， 就 应 加 以 实现 。 当 今 操 作 系 统 的 编写 ， 几 乎 总 是 采用 系统 实现 语 
言 或 更 高 级 的 语言 。 这 个 特点 可 以 改善 实现 、 维 护 和 移植 。 

现代 操作 系统 庞大 且 复 杂 ， 应 精心 设计 。 模 块 化 很 重要 。 采 用 分 层 法 或 微 内 核 法 来 设计 
系统 是 比较 好 的 。 现 在 ， 许 多 操作 系统 支持 动态 加 载 模块 ， 这 人 允许 在 操作 系统 执行 时 添加 功 
能 。 通 常 ， 操 作 系 统 采用 混合 方法 ， 以 便 采 用 多 种 不 同类 型 的 结构 。 

进程 和 内 核 的 故障 调试 可 以 采用 调试 器 以 及 其 他 工具 〈 用 于 分 析 内 存 转 储 ) 来 进行 。 类 
似 DTrace 的 工具 ， 可 以 分 析 生 产 系统 ， 以 发 现 瓶颈 和 了 解 其 他 系统 行为 。 

为 了 特定 机 器 配置 创建 一 个 操作 系统 ， 应 当 执 行 系统 生成 。 为 了 启动 计算 机 系统 ， 应 初 
始 化 CPU， 并 开始 执行 位 于 固件 的 引导 程序 。 如 果 操 作 系统 也 在 固件 系统 中 ， 则 引导 程序 
可 以 直接 启动 操作 系统 。 否 则 ， 它 要 完成 这 样 一 系列 的 步 又: 逐步 地 从 固件 或 磁盘 中 加 载 更 
高 级 的 程序 ， 直 到 操作 系统 本 身 加 到 内 存 并 执行 。 
习题 
2.1 操作 系统 提供 的 服务 和 功能 可 以 分 为 两 大 类 。 简 要 描述 这 两 大 类 ， 并 讨论 它们 如 何不 同 。 

2.2 ”描述 传递 参数 到 操作 系统 的 三 种 通用 方法 。 

2.3 ”描述 如 何 获得 一 个 程序 执行 不 同 代码 部 分 的 时 间 统 计 简 表 。 讨 论 获 得 这 种 统计 简 表 的 重要 性 。 
24 操作 系统 文件 管理 的 5 个 主要 功能 是 什么 ? 

2.5 对 于 操作 文件 和 设备 ， 采 用 同样 的 系统 调用 接口 有 什么 优点 和 缺点 ? 

2.6 采用 操作 系统 提供 的 系统 调用 接口 ， 用 户 是 否 能 够 开发 一 个 新 的 命令 解释 程序 ? 

2.7 ”进程 间 通 信 的 两 个 模型 是 什么 ? 这 两 种 方案 有 何 长 处 和 短处 ? 

2.8 为 什么 机 制 和 策略 的 分 离 是 可 取 的 ? 

2.9 如果 操作 系统 的 两 个 组 件 相互 依赖 ， 那 么 采用 分 层 法 有 时 很 难 。 找 一 个 这 样 的 场景 : 有 两 个 系统 

组 件 的 功能 是 紧密 耦合 的 ， 但 如 何 对 它们 分 层 却 并 不 清楚 。 

2.10 采用 微 内 核 法 设计 系统 的 主要 优点 是 什么 ?用 户 程序 和 系统 服务 在 微 内 核 架 构 内 如 何 交互 ? 采 

用 微 内 核 设 计 的 缺点 是 什么 ? 

2.11 采用 可 加 载 内 核 模块 的 优点 有 什么 ? 

2.12 iOS fil Android 有 什么 相似 ?它们 如 何不 同 ? 

2.13 ”解释 为 什么 Android 系统 运行 的 Java 程序 不 使 用 标准 的 Java API 和 虚拟 机 。 

2.14 ”试验 操作 系统 Synthesis 在 内 核 里 集成 了 一 个 汇编 器 。 为 了 优化 系统 调用 性 能 ， 通 过 在 内 核 空间 

内 汇编 程序 ， 可 缩短 系统 调用 在 内 核 中 经 过 的 路 径 。 这 与 分 层 法 相反 ， 这 种 方法 包括 了 在 内 核 

中 经 过 的 路 径 ， 以 使 操作 系统 构建 更 加 简单 。 讨 论 Synthesis 方法 对 内 核 设 计 和 系统 性 能 优化 有 

什么 好 处 与 坏处 
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编程 题 

2.15 2.3 节 描 述 了 一 个 程序 ， 以 将 一 个 文件 的 内 容 复制 到 另 一 个 目标 文件 。 这 个 程序 首先 提示 用 户 输 
入 源 文件 和 目标 文件 的 名 称 。 利 用 Windows 或 POSIX 的 API， 编 写 这 个 程序 。 确 保 包 括 所 有 必 
要 的 错误 检查 以 及 源 文件 存在 。 
在 正确 设计 并 测试 这 个 程序 后 ， 可 采用 系统 调用 跟踪 工具 来 运行 它 (如 果 所 用 的 系统 提供 这 
样 的 支持 ) Linux 系统 提供 了 strace LH, Mi Solaris 和 Mac OS X 系统 采用 了 dtrace fit 
令 。Windows 系统 没有 提供 这 类 工具 ， 只 能 通过 调试 器 来 跟踪 程序 。 


编程 项 目 
Linux 内 核 模 块 


在 本 项 目 中 ， 你 会 学 习 如 何 创建 内 核 模块 以 及 将 其 加 载 到 Linux 内 核 。 完 成 该 项 目 可 以 采用 与 本 
书 配套 的 虚拟 机 。 虽 然 可 以 使 用 一 个 编辑 器 来 写 这 些 C 程序 ,但 是 要 求 使 用 终端 应 用 程序 来 编译 程 
序 ， 并 且 还 要 在 命令 行 上 输入 命令 以 管理 内 核 模块 。 

正如 将 会 看 到 的 ， 开 发 内 核 模块 的 优势 在 于 : 它 是 一 个 相对 简单 的 与 内 核 交 互 的 方法 ， 从 而 允许 
编写 程序 以 直接 调用 内 核 函 数 。 重 要 的 是 要 记 住 : 你 确实 是 编写 内 核 代码 ， 以 与 内 核 直接 交互 。 这 通 
常 意味 着 代码 中 的 任何 错误 都 可 能 导致 系统 崩溃 ! 不 过 ， 由 于 会 使 用 一 个 虚拟 机 ， 任 何故 障 顶 多 需要 
重新 启动 系统 。 
第 一 部 分 : 创建 内 核 模块 

这 个 项 目的 第 一 部 分 包括 以 下 一 系列 步骤 ， 用 于 创建 模块 并 将 其 搬 到 Linux 内 核 。 要 列 出 当前 加 
载 的 所 有 内 核 模块 ， 可 输入 命令 

lsmod 
这 个 命令 会 采用 三 列 来 列 出 当前 的 内 核 模块 : 名 称 、 大 小 以 及 正在 使 用 的 模块 。 下 面 的 程序 (名 为 
simple.c， 为 本 书 配套 源 代 码 ) 是 一 个 非常 基本 的 内 核 模块 ， 用 于 在 内 核 模块 加 载 和 印 载 时 打印 适当 
的 消息 。 


#include <linux/init.h> 
#include <linux/kernel.h> 
#include <linux/module.h> 


/* This function is called when the module is loaded. */ 
int simple_init (void) 


printk(KERN_INFO "Loading Module\n") ; 

return 0; 
/* This function is called when the module is removed. */ 
void simple_exit (void) 


printk(KERN_INFO "Removing Module\n") ; 


/* Macros for registering module entry and exit points. */ 
module_init (simple_init) ; 
module_exit (simple_exit) ; 


MODULE_LICENSE ("GPL") ; 
MODULE_DESCRIPTION ("Simple Module"); 
MODULE_AUTHOR ("SGG"); 
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函数 simple_init() 为 模块 的 入 口 点 module entry point)， 它 是 当 模块 加 载 到 内 核 时 被 调用 的 
函数 。 类 似 地 ， 函 数 simple_exit() 为 模块 的 退出 点 (module exit point)， 它 是 当 模块 从 内 核 中 移 除 
时 被 调用 的 函数 。 

模块 入 口 点 的 函数 应 返回 一 个 整数 值 ，0 代表 成 功 ， 而 任何 其 他 值 代表 失败 。 模 块 退出 点 的 函数 
应 返回 void。 无 论 是 模块 人口 点 函数 还 是 模块 退出 点 函数 ， 都 不 能 传递 任何 参数 。 下 面 的 两 个 宏 用 于 
向 内 核 注册 模块 的 入 口 点 和 退出 点 : 


module_init() 
module_exit() 


注意 模块 的 入 口 点 和 退出 点 函数 如 何 调用 函数 printk()。Printk() 是 等 价 于 Printf() 的 内 核 函 
数 ， 然 而 它 的 输出 被 发 送 到 一 个 内 核 日 志 缓 冲 区 ， 其 内 容 可 以 通过 dmesg 命令 来 读 取 。printk() 与 
printf() 之 间 的 一 个 区 别 是 : printk() 允许 指定 一 个 优先 级 ， 其 具体 值 由 文件 <linux/printk.h> 
来 定义 。 在 这 里 ， 优 先 级 为 KERN_INF0， 表 示 这 是 一 个 信息 性 (informational) 消息 。 

最 后 几 行 ， 如 MODULE_LICENSE() 、MODULE_DESCRIPTION() 和 MODULE_AUTHOR() ， 说 明 软 件 许 
可 、 模 块 描述 、 作 者 等 信息 。 对 于 我 们 而 言 ， 不 会 用 到 这 些 信息 ,但 是 我 们 包括 它 ， 因 为 这 是 开发 内 
核 模块 的 标准 做 法 。 

这 个 内 核 模块 simple.c 的 编译 ， 可 采用 与 该 项 目 源 代 码 一 起 附带 的 文件 Makefile。 要 编译 模 
块 ， 输 入 以 下 命令 行 

make 

编译 生成 多 个 文件 。 文 件 simple.ko 为 已 编译 的 内 核 模 块 。 接 下 来 的 步骤 用 于 将 这 个 模块 插入 
Linux 内 核 。 

加 载 与 卸载 内 核 模块 
内 核 模块 的 加 载 ， 可 使 用 insmod 命令 : 


sudo insmod simple.ko 


要 检查 模块 是 否 已 经 加 载 ， 先 输入 命令 lsmod， 再 搜索 模块 simple。 回 想 一 下 ， 当 模块 被 插入 内 核 
时 ， 模 块 和 人口 点 被 调用 。 要 检查 消息 内 容 是 否 在 内 核 日 志 缓冲 区 ， 可 输入 命令 


dmesg 


你 应 该 看 到 消息 "Loading Module", 
删除 内 核 模块 可 用 命令 rmmod (注意 : .ko 后 级 是 不 必要 的 ): 


sudo rmmod simple 


请 务必 使 用 dmesg 命令 检查 ， 确 保 模 块 已 被 删除 。 
由 于 内 核 日 志 缓 冲 区 可 能 很 快 填 满 ， 通 常 最 好 定期 清除 缓冲 区 。 这 可 这 样 进行 : 


sudo dmesg -c 


第 一 部 分 的 作业 

按 上 述 步骤 ,创建 内 核 模块 ， 并 加 载 和 印 载 模块 。 务 必用 dmesg 来 检查 内 核 日 志 缓冲 区 的 内 容 ， 
以 确保 正确 遵循 以 上 所 述 的 步骤 。 
第 二 部 分 : 内 核 数 据 结 构 

本 项 目的 第 二 部 分 涉及 修改 内 核 模块 ， 以 便 使 用 内 核 的 链表 数据 结构 。 

1.10 节 讨 论 了 操作 系统 的 各 种 常见 数据 结构 。Linux 内 核 提 供 了 多 种 这 样 的 结构 。 这 里 探讨 使 用 
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内 核 的 循环 双向 链表 。 所 讨论 的 许多 内 容 都 在 Linux 的 源 代码 中 ， 即 <linux/list.h>; 另外 ， 在 执 
行 下 列 步骤 时 ， 建 议 大 家 查看 一 下 该 文件 。 
首先 ， 应 定义 一 个 要 插入 链表 的 结构 struct， 它 可 包括 各 种 元 素 。 下 面 的 C struct 定义 了 
EA: 
struct birthday { 
int day; 
int month; 


int year; 
struct list head list; 


注意 成 员 struct list_head_list, 4/}4 list_head 的 定义 位 于 头 文件 <linux/types,h> 中 ， 其 用 
意 是 将 所 形成 的 列表 舱 人 人 节点。 结构 list_head 很 简单 ， 它 仅 拥 有 两 个 成 员 next 和 prev， 用 于 指向 
列表 的 下 一 个 和 前 一 个 节点 。 通 过 结构 内 的 这 个 嵌 人 链表 成 员 ，Linux 可 以 采用 一 组 宏 (macro) 函数 来 
管理 这 个 数据 结构 。 
插入 元 素 到 链表 

我 们 可 以 声明 一 个 1ist_head 对 象 ， 通 过 宏 LIST_HEAD(), ， 可 以 引用 链表 头 。 


static LIST_HEAD(birthday_list) ; 


这 个 宏 定义 并 初始 化 一 个 名 为 birthday_list 的 变量 ， 其 类 型 为 struct list_head, 
我 们 创建 并 初始 化 struct birthday 的 实例 ; 


struct birthday *person; 


person = kmalloc(sizeof(*person), GFP_KERNEL) ; 
person->day = 2; 

person->month= 8; 

person->year = 1995; 

INIT_LIST_HEAD (&person->list) ; 


kmalloc() 函数 用 于 分 配 内 核 内 存 ， 相 当 于 分 配 内 存 的 用 户 级 malloc(), ( GFP_KERNEL 表示 常规 内 
核 内 存 分 配 。) 宏 INIT_LIST_HEAD() 初始 化 结构 struct birthday 的 成 员 list。 通 过 宏 list_add_ 
tail() ， 我 们 可 以 将 这 个 实例 添加 到 链表 中 。 

list_add_tail(&person->list, &birthday_list) ; 
遍历 链表 

遍历 列表 可 采用 宏 list_for_each_entry() ， 它 接受 三 个 参数 ， 

o 一 个 指针 ， 指 向 被 迭代 的 结构 。 

o 一 个 指针 ， 指 向 被 迭代 结构 的 头 。 

o 包含 结构 list_head 的 变量 名 称 。 

下 面 代码 说 明了 这 个 宏 : 

struct birthday *ptr; 

list_for_each_entry(ptr, &birthday_list, list) { 

/* on each iteration ptr points */ 


/* to the next birthday struct */ 


} 


从 链表 中 移 除 元 素 
从 列表 中 删除 元 素 可 使 用 宏 1ist_de1() ， 它 需要 一 个 指向 struct list_head 的 指针 ; 


list.del(struct list head *element) 


HIP RHARAH 69 


这 可 从 列表 中 删除 元 素 ， 并 保持 该 列表 的 其 余部 分 的 结构 不 变 。 

或 许 从 链接 列表 中 移 除 所 有 元 素 的 最 简单 方法 是 : 在 遍历 列表 时 删除 每 个 元 素 。 宏 list_for_ 
each_entry_safe() Æ list_for_each_entry() 的 功能 很 像 ， 只 不 过 它 需 要 一 个 额外 参数 ， 用 于 
保持 删除 条 目的 指针 next 的 值 。( 这 是 维护 列表 结构 所 必需 的 -) 下 面 的 代码 例子 说 明了 这 个 宏 : 


struct birthday *ptr, *next 


list_for_each_entry_safe(ptr,next ,&birthday_list,list) { 
/* on each iteration ptr points */ 
/* to the next birthday struct */ 
list.del(&ptr->list) ; 
kfree(ptr) ; 


请 注意 ， 在 删除 每 个 元 素 之 后 ， 我 们 调用 kfree()， 以 将 以 前 用 kmalloc() 分 配 的 内 存 返回 给 内 
核 。 细 心 的 内 存 管理 ， 包 括 释 放 内 存 以 防止 内 存 泄 漏 (memory leak)， 对 内 核 级 代码 的 开发 是 至 关 重 
要 的 。 
第 二 部 分 的 作业 

在 模块 入 口 点 ,创建 链 表 以 包含 5 个 struct birthday 元 素 。 遍 历 链表 并 且 输 出 内 容 到 内 核 日 
志 缓 冲 区 。 调 用 命令 dmesg， 以 确保 在 模块 加 载 时 该 列表 构造 正确 。 

在 模块 退出 点 ， 从 链表 中 删除 元 素 ， 并 且 将 空闲 内 存 返回 到 内 核 。 另 外 ， 调 用 命令 dmesg， 以 检 
查 在 模块 印 载 时 该 列表 已 被 删除 。 


推荐 读物 

Dijkstra( 1968 ) 提倡 操作 系统 的 分 层 设计 。Brinch-Hansen( 1970 ) 是 早期 的 微 内 核 方法 的 支持 者 : 
该 方法 将 操作 系统 作为 内 核 ， 并 且 在 之 上 建立 更 为 完整 的 系统 。Tarkoma 和 Lagerspetz ( 2011 ) 概述 
了 各 种 移动 操作 系统 ,包括 Android 和 iOS. 

Microsoft ( 1986 ) 描述 了 MS-DOS V3.1. Solomon ( 1998 ) 以 及 Solomon 和 Russinovich ( 2000 ) 
fii T Windows NT 和 Windows 2000, Russinovich 和 Solomon ( 2009 ) 介绍 了 Windows XP 的 内 部 细 
Wo Hart (2005 ) 详细 地 介绍 了 Windows 系统 编程 。McKusick 等 (1996 ) 介绍 了 BSD UNIX, Love 
(2010) 和 Mauerer ( 2008 ) 详细 讨论 了 Linux 内 核 。 特 别 地 ，Love (2010) 描述 了 Linux 内 核 模块 以 
及 内 核 数 据 结构 。Vahalia ( 1996 ) 详细 地 介绍 了 多 个 UNIX 系统 ， 包 括 Mach, KF MacOS X， 参 见 
http://www.apple.com/macosx 和 Singh ( 2007 )。McDougall 和 Mauro ( 2007 ) 全 面 介绍 了 Solaris. 

Gregg 和 Mauro ( 2011 ) 讨论 了 DTrace, DTrace 源 代 码 在 http://src.opensolaris,org/source/ 上 . 
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可 以 将 进程 (process) 看 作 执 行 的 程序 。 进 程 需 要 一 定 的 资源 ， 如 
CPU 时 间 、 内 存 、 文 件 和 1/0 设备 ， 以 便 执 行 任务 。 这 些 资源 在 创建 进 
程 或 执行 进程 时 得 以 分 配 。 

进程 是 大 多 数 系统 的 工作 单元 。 这 类 系统 包含 一 组 进程 : 操作 系统 
进程 执行 系统 代码 ， 而 用 户 进 程 执行 用 户 代码 。 所 有 这 些 进程 可 以 并 发 
执行 。 

虽然 传统 进程 在 运行 时 仅仅 包含 单个 控制 线程 (thread)， 但 是 目前 
大 多 数 的 现代 操作 系统 支持 具有 多 线程 的 进程 。 

操作 系统 负责 进程 和 线程 管理 的 多 个 方面 : 用 户 进 程 与 系统 进程 的 
创建 与 删除 ， 进 程 调度 ， 用 于 进程 同步 、 进 程 通信 与 进程 死 锁 处 理 的 机 
制 等 。 
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早期 的 计算 机 一 次 只 能 执行 一 个 程序 。 这 种 程序 完全 控制 系统 ， 并 且 访 问 所 有 系统 资 
源 。 相 比 之 下 ， 现 代 计 算 机 系统 允许 加 载 多 个 程序 到 内 存 ， 以 便 并 发 执行 。 这 种 改进 要 求 ; 
对 各 种 程序 提供 更 严 的 控制 和 更 好 的 划分 。 这 些 需 求 导致 了 进程 ( process) 概念 的 产生 ， 即 
进程 为 执行 程序 。 进 程 是 现代 分 时 操作 系统 的 工作 单元 。 

操作 系统 越 复 杂 ， 有 望 为 用 户 做 的 也 越 多 。 虽 然 它 主要 关注 的 是 执行 用 户 程序 ， 但 是 也 
要 顾及 各 种 系统 任务 (这 些 任 务 留 在 内 核 之 外 会 更 好 )。 因 此 ， 系 统 会 由 一 组 进程 组 成 : 操 
作 系统 进 程 执行 系统 代码 ， 而 用 户 进程 执行 用 户 代码 。 通 过 CPU 的 多 路 复 用 ， 所 有 这 些 进 
程 可 以 并 发 执行 。 通 过 在 进程 之 间 切 换 CPU， 操 作 系 统 能 使 计算 机 更 为 高 效 。 在 本 章 中 ， 
你 将 学 习 : 进程 是 什么 ， 以 及 它们 如 何 工作 。 

本 章 目 标 

e 引入 进程 概念 ， 即 执行 程序 ， 这 是 所 有 计算 的 基础 。 
讨论 进程 的 各 类 特性 ， 包 括 调度 、 创 建 和 终止 。 
探讨 通过 共享 内 存 和 消息 传递 的 进程 间 通 信 。 
讨论 客户 机 与 服务 器 系统 间 的 通信 。 


3.1 进程 概念 


在 讨论 操作 系统 时 ， 有 个 问题 是 关于 如 何 称呼 所 有 CPU 活动 。 批 处 理 系统 执行 作业 
(job)， 而 分 时 系统 使 用 用 户 程序 (user program) 或 任务 (task)。 即 使 单 用 户 系统 ， 用 户 也 
能 同时 和 运行 多 个 程序 : 文字 处 理 、 网 页 浏览 和 电子 邮件 处 理 等 。 即 使 用 户 一 次 只 能 执行 一 
个 程序 ， 操 作 系 统 也 需要 支持 本 身 的 内 部 活动 ， 如 内 存 管理 。 所 有 这 些 活动 在 许多 方面 都 相 
似 ， 因 此 称 为 进程 (process)。 

在 本 书 中 ， 作 业 与 进程 这 两 个 概念 几乎 可 以 互 换 使 用 。 虽 然 笔者 自己 偏爱 进程 ， 但 是 许 
多 操作 系统 的 理论 和 技术 是 在 操作 系统 的 主要 活动 被 称 为 作业 处 理 期 间 发 展 起 来 的 。 如 果 因 
为 进程 取代 了 作业 ， 而 简单 避免 使 用 有 关 作业 的 常用 短语 (如 作业 调 
度 )， 则 会 令 人 误解 。 


3.1.1 进程 


如 前 所 述 ， 进 程 是 执行 的 程序 ， 这 是 一 种 非 正 式 的 说 法 。 进 程 
不 只 是 程序 代码 ， 程 序 代 码 有 时 称 为 文本 段 (text section) (或 代码 
Et (code section))。 进 程 还 包括 当前 活动 ， 如 程序 计数 器 (program 
counter) 的 值 和 处 理 器 寄存 器 的 内 容 等 。 另 外 ， 进 程 通 稼 还 包括 : 进 
程 堆 栈 (stack) (包括 临时 数据 ， 如 函数 参数 、 返 回 地 址 和 局 部 变量 ) 
和 数据 段 (data section) (包括 全 局 变量 )。 进 程 还 可 能 包括 堆 (heap), oL | 
这 是 在 进程 运行 时 动态 分 配 的 内 存 。 进 程 的 内 存 结构 如 图 3-1 所 示 。 ”图 3-1 内 存 中 的 进程 
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我 们 强调 : 程序 本 身 不 是 进程 。 程 序 只 是 被 动 (passive) 实体 ， 如 存储 在 磁盘 上 包含 一 
系列 指令 的 文件 (经 常 称 为 可 执行 文件 (executable file))。 相 反 ， 进 程 是 活动 (active) 实 
体 ， 具 有 一 个 程序 计数 器 用 于 表示 下 个 执行 命令 和 一 组 相关 资源 。 当 一 个 可 执行 文件 被 加 载 
到 内 存 时 ， 这 个 程序 就 成 为 进程 。 加 载 可 执行 文件 通常 有 两 种 方法 : 双击 一 个 代表 可 执行 文 
件 的 图 标 或 在 命令 行 上 输入 可 执行 文件 的 名 称 〈 如 prog.exe 或 a,out)。 

虽然 两 个 进程 可 以 与 同一 程序 相关 联 ， 但 是 当 作 两 个 单独 的 执行 序列 。 例 如 ， 多 个 用 户 
可 以 运行 电子 邮件 的 不 同 副 本 ,或 者 同一 用 户 可 以 调用 Web 浏览 器 程序 的 多 个 副本 。 每 个 
都 是 单独 进程 ;虽然 文本 段 相同 ， 但 是 数据 、 堆 及 堆栈 段 却 不 同 。 进 程 在 运行 时 也 经 常会 生 
成 许多 进程 。3.4 节 将 讨论 这 些 问 题 。 

注意 ， 进 程 本 身 也 可 作为 一 个 环境 ， 用 于 执行 其 他 代码 。Java 编程 环境 就 是 一 个 很 好 的 
例子 。 在 大 多 数 情况 下 ， 可 执行 Java 程序 在 Java 虚拟 机 (Java Virtual Machine, JVM) 中 
执行 。 作 为 一 个 进程 来 执行 的 JVM， 会 解释 所 加 载 Java， 并 根据 代码 采取 动作 ( 按 本 机 指 
令 来 执行 )。 例 如 ， 如 要 运行 编译 过 的 Java 程序 Program.class, 我 们 可 以 输入 


java Program 
& java ¥ JVM 作为 一 个 普通 进程 来 运行 ， 而 这 个 进程 会 在 JVM 内 执行 Java 程 序 
Program。 这 个 概念 与 模拟 是 一 样 的 ， 不 同 的 是 ， 代 码 不 是 采用 不 同 指令 集 ， 而 是 采用 Java 语言 。 


3.1.2 进程 状态 


进程 在 执行 时 会 改变 状态 。 进 程 状 态 ， 部 分 取决 于 进程 的 当前 活动 。 每 个 进程 可 能 处 于 
以 下 状态 : 

o 新 的 (new): 进程 正在 创建 。 

e 运行 (running): 指令 正在 执行 。 

© 等 待 (waiting): 进程 等 待 发 生 某 个 事件 (如 IO 完成 或 收 到 信号 )。 

© 就 绪 (ready): 进程 等 待 分 配 处 理 右 。 

o Ait (terminated): 进程 已 经 完成 执行 。 

这 些 状态 名 称 比 较 随意 ， 而 且 随 着 操作 系统 的 不 同 而 有 所 不 同 。 不 过 ， 它 们 表示 的 状 
态 在 所 有 系统 上 都 会 出 现 。 有 的 系统 对 进程 状态 定义 的 更 细 。 重 要 的 是 要 认识 到 : 一 次 只 
有 一 个 进程 可 在 一 个 处 理 器 上 运行 (running); 但 是 许多 进程 可 处 于 就 绪 (ready) 或 等 待 
(waiting) 状态 。 图 3-2 显示 了 一 个 状态 图 。 





LO 或 事件 的 完成 gee ta IO 或 事件 的 等 待 


Q 
图 3-2 进程 状态 图 


3.1.3 ”进程 控制 块 
操作 系统 内 的 每 个 进程 表示 ， 采 用 进程 控制 块 ( Process Control Block, PCB), RA 
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任务 控制 块 (task control block)。 图 3-3 给 出 了 一 个 PCB 的 例子 。 它 包含 许多 与 某 个 特定 进 
程 相关 的 信息 : 
o 进程 状态 (process state): 状态 可 以 包括 新 的 、 就 绪 、 运 行 、 等 待 、 停 止 等 。 
e 程序 计数 器 (program counter): 计数 器 表示 进程 将 要 执行 的 下 个 指令 的 地 址 。 
e CPU 寄存 器 (CPU register): 根据 计算 机 体系 结构 的 不 同 ， 寄 存 器 的 类 型 和 数量 也 会 
不 同 。 它 们 包括 累加 器 、 索 引 寄 存 器 、 堆 栈 指 针 、 通 用 寄存 器 和 其 他 条 件 码 信 息 寄 
存 器 。 在 发 生 中 断 时 ， 这 些 状态 信息 与 程序 计数 器 一 起 需要 保存 ， 以 便 进 程 以 后 能 
正确 地 继续 执行 (图 3-4 )。 
e CPU 调度 信息 ( CPU-scheduling information) : 这 类 信息 包括 进程 优先 级 、 调 度 队 列 
的 指针 和 其 他 调度 参数 。( 第 5 章 讨 论 进程 调度 )。 
e 内 存 管 理 信 息 ( memory-management information): 根据 操作 系统 使 用 的 内 存 系统 ， 
这 类 信息 可 以 包括 基地 址 和 界限 寄存 器 的 值 、 页 表 或 段 表 (第 8 章 )。 
e 记 账 信息 (accounting information): 这 类 信息 包括 CPU 时 间 、 实 际 使 用 时 间 、 时 间 
期 限 、 记 上 账 数据 、 作 业 或 进程 数量 等 。 
e 1/0 状态 信息 (1/O status information): 这 类 信息 包括 分 配给 进程 的 VO 设备 列表 、 打 
开 文 件 列表 等 。 
简 而 言 之 ，PCB 简单 地 作为 这 些 信 息 的 仓库 ， 这 些 信 息 随 着 进程 的 不 同 而 不 同 。 





空闲 中 断 或 系统 调用 执行 





图 3-3 ”进程 控制 块 (PCB) 图 3-4 ”进程 间 的 CPU 切换 


3.1.4 ”线程 


迄今 为 止 所 讨论 的 进程 模型 暗示 : 每 个 进程 是 一 个 只 能 进行 单个 执行 线程 (thread) 的 
程序 。 例 如 ， 如 果 一 个 进程 运行 一 个 字 处 理 器 程序 ， 那 么 只 能 执行 单个 指令 线程 。 这 种 单 
一 控制 线程 使 得 进程 一 次 只 能 执行 一 个 任务 。 例 如 ， 用 户 不 能 在 同一 进程 内 ， 同 时 输入 字符 
和 拼写 检查 。 许 多 现代 操作 系统 扩展 了 进程 概念 ， 以 便 支持 一 次 能 够 执行 多 个 线程 。 这 种 
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特征 对 多 核 系统 尤其 有 益 ， 因 为 可 以 并 行 运行 多 个 线程 。 在 支持 线程 的 系统 中 ，PCB 被 扩 
展 到 包括 每 个 线程 的 信息 。 系 统 还 会 需要 一 些 其 他 改变 ， 以 便 支 持 线程 。 第 4 章 详细 探讨 了 
线程 。 


Linux 的 进程 表示 

Linux 操作 系统 的 进程 控制 块 采用 C 语言 结 构 task_struct 来 表示 ， 它 位 于 内 核 
源 代码 目录 内 的 头 文件 <linux/sched.h>。 这 个 结构 包含 用 于 表示 进程 的 所 有 必要 信 
息 ， 包 括 进 程 状态 、 调 度 和 内 存 管 理 信息 、 打 开 文 件 列表 、 指 向 父 进 程 的 指针 及 指向 子 
进程 和 兄弟 进程 列表 的 指针 等 。( 父 进程 (parent process) 为 创建 它 的 进程 ， 子 进程 (child 
process) 为 它 本 身 创 建 的 进程 ， 兄 弟 进 程 (sibling process) 为 具有 同一 父 进 程 的 进程 。) 
这 些 成 员 包括 : 

long state; /* state of the process */ 

struct sched entity se; /* scheduling information */ 

struct task struct *parent; /* this process’s parent */ 

struct list head children; /* this process’s children */ 


struct files_struct *files; /* list of open files */ 
struct mmstruct *mm; /* address space of this process */ 


例如 ， 进 程 状态 是 由 这 个 结构 的 成 员 long state 来 表示 的 。 在 Linux 内 核 中 ， 所 有 活动 
进程 的 表示 都 采用 task_struct 的 双向 链表 。 内 核 采用 一 个 指针 即 current, AFH 
当前 系统 正在 执行 的 进程 ， 如 下 图 所 示 : 


一 [人 一 


struct task_struct struct task_ struct struct task_struct 
进程 信息 进程 信息 请 进程 信息 
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current 


( 当前 执行 进程 ) 


下 面 举例 说 明 ， 内 核 如 何 修改 某 个 特定 进程 的 task_struct 的 成 员 ， 假 设 系统 需要 
将 当前 运行 进程 状态 改 成 值 new_state。 如 果 current 为 指向 当前 运行 进程 的 指针 ， 那 
么 可 以 这 样 改变 状态 : 


current->state = new state; 


3.2 ”进程 调度 
多 道 程序 设计 的 目标 是 ， 无 论 何 时 都 有 进程 运行 ， 从 而 最 大 化 CPU 利用 率 。 分 时 系统 
的 目的 是 在 进程 之 间 快 速 切换 CPU， 以 便 用 户 在 程序 运行 时 能 与 其 交互 。 为 了 满足 这 些 目 
标 ， 进 程 调度 器 (process scheduler) 选择 一 个 可 用 进程 (可 能 从 多 个 可 用 进程 集合 中 ) 到 
CPU 上 执行 。 单 处 理 器 系统 不 会 具有 多 个 正在 运行 的 进程 。 如 果 有 多 个 进程 ， 那 么 余下 的 
需要 等 待 CPU 空闲 并 能 重新 调度 。 


3.2.1 调度 队列 
进程 在 进入 系统 时 ， 会 被 加 到 作业 队列 (job queue)， 这 个 队列 包括 系统 内 的 所 有 进程 。 
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驻 留 在 内 存 中 的 、 就 绪 的 、 等 待 运行 的 进程 保存 在 就 绪 队 列 (ready queue) 上 。 这 个 队列 
通常 用 链表 实现 ; 其 头 节点 有 两 个 指针 ， 用 于 指向 链表 的 第 一 个 和 最 后 一 个 PCB 块 ; 每 个 
PCB 还 包括 一 个 指针 ， 指 向 就 绪 队 列 的 下 一 个 PCB。 

系统 还 有 其 他 队列 。 当 一 个 进程 被 分 配 了 CPU 后 ， 它 执行 一 段 时 间 ， 最 终 退 出 ， 或 被 
中 断 ， 或 等 待 特定 事件 发 生 如 IO 请 求 的 完成 。 假 设 进程 向 一 个 共享 设备 如 磁盘 发 出 IO 请 
求 。 由 于 系统 具有 许多 进程 ， 磁 盘 可 能 忙于 其 他 进程 的 IO 请 求 ， 因 此 该 进程 可 能 需要 等 待 
磁盘 。 等 待 特定 IO 设备 的 进程 列表 ， 称 为 设备 队列 (device queue)。 每 个 设备 都 有 自己 的 
设备 队列 (图 3-5). 





图 3-5 就 绪 队 列 和 各 种 IO 设备 队列 


进程 调度 通常 用 队列 图 (queueing diagram) 来 表示 ， 如 图 3-6 所 示 。 每 个 矩形 框 代 表 一 
个 队列 ; 这 里 具有 两 种 队列 : 就 绪 队 列 和 设备 队列 。 圆 圈 表 示 服 务 队 列 的 资源 ;箭头 表示 系 
统 内 的 进程 流向 。 





图 3-6 表示 进程 调度 的 队列 图 


一 一 


最 初 ， 新 进程 被 加 到 就 绪 队 列 ; 它 在 就 绪 队 列 中 等 待 ， 直 到 被 选中 执行 或 被 分 派 
(dispatched)。 当 该 进程 分 配 到 CPU 并 执行 时 ， 以 下 事件 可 能 发 生 : 

o 进程 可 能 发 出 IO 请 求 ， 并 被 放 到 IO 队列 。 

o 进程 可 能 创建 一 个 新 的 子 进程 ， 并 等 待 其 终止 。 

e 进程 可 能 由 于 中 断 而 被 强制 释放 CPU， 并 被 放 回 到 就 绪 队 列 。 

对 于 前 面 两 种 情况 ， 进 程 最 终 从 等 待 状态 切换 到 就 绪 状 态 ， 并 放 回 到 就 绪 队 列 。 进 程 重 
复 这 一 循环 直到 终止 ; 然后 它 会 从 所 有 队列 中 删除 ， 其 PCB 和 资源 也 被 释放 。 


3.2.2 调度 程序 


进程 在 整个 生命 周期 中 ， 会 在 各 种 调度 队列 之 间 迁 移 。 操 作 系 统 为 了 调度 必须 按 一 定 方 
式 从 这 些 队列 中 选择 进程 。 进 程 选择 通过 适当 调度 器 或 调度 程序 (scheduler) 来 执行 。 

通常 ， 对 于 批 处 理 系统 ， 提 交 的 进程 多 于 可 以 立即 执行 的 。 这 些 进 程 会 被 保存 到 大 容 
量 存储 设备 (通常 为 磁盘 ) 的 缓冲 池 ， 以 便 以 后 执行 。 长 期 调度 程序 (long-term scheduler) 
或 作业 调度 程序 (job scheduler) 从 该 池 中 选择 进程 ， 加 到 内 存 ， 以 便 执行 。 短 期 调度 程序 
( short-term scheduler) 或 CPU 调度 程序 (CPU scheduler) 从 准备 执行 的 进程 中 选择 进程 ， 
并 分 配 CPU。 

这 两 种 调度 程序 的 主要 区 别 是 执行 频率 。 短 期 调度 程序 必须 经 常 为 CPU 选择 新 的 进程 。 
进程 可 能 执行 几 毫 秒 ( ms )， 就 会 等 待 UO 请 求 。 通 常 ， 短 期 调度 程序 每 100ms 至 少 执行 一 
次 。 由 于 执行 之 间 的 时 间 短 ， 短 期 调度 程序 必须 快速 。 如 果 花 费 10ms 来 确定 执行 一 个 运行 
100ms 的 进程 ,那么 10/(100 + 10) = 9% 的 CPU 时 间 会 用 在 (或 浪费 在 ) 调度 工作 上 。 

长 期 调度 程序 执行 并 不 频繁 ; 在 新 进程 的 创建 之 间 ， 可 能 有 几 分 钟 间隔 。 长 期 调度 程序 
控制 多 道 程序 程度 ( degree of multiprogramming) (内 存 中 的 进程 数量 )。 如 果 多 道 程序 程度 
稳定 ， 那 么 创建 进程 的 平均 速度 必须 等 于 进程 离开 系统 的 平均 速度 。 因 此 ， 只 有 在 进程 离开 
系统 时 ， 才 需要 长 期 调度 程序 的 调度 。 由 于 每 次 执行 之 间 的 更 长 时 间 间 隔 ， 长 期 调度 程序 可 
以 负担 得 起 更 多 时 间 ， 以 便 决定 应 该 选择 执行 哪个 进程 。 

重要 的 是 ， 长 期 调度 程序 进行 认真 选择 。 通 常 ， 大 多 数 进程 可 分 为 : IO 为 主 或 CPU 
WE. VO 密集 型 进程 (IO-bound process)， 执 行 VO 比 执行 计算 需要 花费 更 多 时 间 。 相 反 ， 
CPU 密集 型 进程 (CPU-bound process) 很 少 产生 IO 请 求 ， 而 是 将 更 多 时 间 用 于 执行 计算 。 
重要 的 是 ,长 期 调度 程序 应 该 选择 IO 密集 型 和 CPU 密集 型 的 合理 进程 组 合 。 如 果 所 有 进 
程 都 是 IO 密集 型 的 ， 那 么 就 绪 队 列 几 乎 总 是 为 空 ， 从 而 短期 调度 程序 没有 什么 可 做 。 如 
果 所 有 进程 都 是 CPU 密集 型 的 ， 那么 IO 等 待 队列 几乎 总 是 为 空 ， 从 而 设备 没有 得 到 使 用 ， 
因而 系统 会 不 平衡 。 为 了 使 得 性 能 最 佳 ， 系 统 需要 IO 密集 型 和 CPU 密集 型 的 进程 组 合 。 

有 的 系统 ， 可 能 没有 或 极 少 采 用 长 期 调度 程序 。 例 如 ，UNIX 或 微软 Windows 的 分 时 
系统 通常 没有 长 期 调度 程序 ， 只 是 简单 将 所 有 新 进程 放 于 内 存 ， 以 供 短期 调度 程序 使 用 。 这 
些 系统 的 稳定 性 取决 于 物理 限制 (如 可 用 的 终端 数 ) 或 用 户 的 自我 调整 。 如 果 多 用 户 系统 性 
能 下 降 到 令 人 难以 接受 ， 那 么 有 的 用 户 就 会 退出 。 

有 的 操作 系统 如 分 时 系统 ， 可 能 引入 一 个 额外 的 中 期 调度 程序 (medium-term scheduler), 
如 图 3-7 所 示 。 中 期 调度 程序 的 核心 思想 是 可 将 进程 从 内 存 (或 从 CPU 竞争 ) 中 移出 ， 从 而 
降低 多 道 程序 程度 。 之 后 ， 进 程 可 被 重新 调和 内存， 并 从 中 断 处 继续 执行 。 这 种 方案 称 为 交 
换 (swap)。 通 过 中 期 调度 程序 ， 进 程 可 换 出 ( swap out)， 并 在 后 来 可 换 入 (swap in). AS 
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改善 进程 组 合 ， 或 者 由 于 内 存 需求 改变 导致 过 度 使 用 内 存 从 而 需要 释放 内 存 ， 就 有 必要 使 用 
交换 。 第 8 章 会 讨论 交换 。 





图 3-7 添加 中 级 进程 调度 到 队列 图 


3.2.3 上下文 切 换 


正如 1.2.1 节 所 提 到 的 ， 中 断 导 致 CPU 从 执行 当前 任务 改变 到 执行 内 核 程 序 。 这 种 操作 
在 通用 系统 中 经 常 发 生 。 当 中 断 发 生 时 ， 系 统 需要 保存 当前 运行 在 CPU 上 的 进程 的 上 下 文 ， 
以 便 在 处 理 后 能 够 恢复 上 下 文 ， 即 先 挂 起 进程 ， 再 恢复 进程 。 进 程 上 下 文采 用 进程 PCB K 
示 ， 包 括 CPU 寄存 器 的 值 、 进 程 状态 (图 3-2 ) 和 内 存 管理 信息 等 。 通 常 ， 通 过 执行 状态 
保存 (state save)， 保 存 CPU 当前 状态 (包括 内 核 模 式 和 用 户 模 式 ) ; 之后， 状态 恢复 ( state 
restore) 重新 开始 运行 。 

切换 CPU 到 另 一 个 进程 需要 保存 当前 进程 状态 和 恢复 另 一 个 进程 的 状态 ， 这 个 任务 称 
为 上 下 文 切 换 (context switch)。 当 进行 上 下 文 切 换 时 ， 内 核 会 将 旧 进 程 状 态 保 存在 其 PCB 
中 ， 然 后 加 载 经 调度 而 要 执行 的 新 进程 的 上 下 文 。 上 下 文 切换 的 时 间 是 纯粹 的 开销 ， 因 为 在 
切换 时 系统 并 没有 做 任何 有 用 工作 。 上 下 文 切换 的 速度 因 机 器 不 同 而 有 所 不 同 ， 它 依赖 于 内 
存 速度 、 必 须 复制 的 寄存 器 数量 、 是 否 有 特殊 指令 〈 如 加 载 或 存储 所 有 寄存 器 的 单个 指令 )。 
典型 速度 为 几 毫 秒 。 

上 下 文 切换 的 时 间 与 硬件 支持 密切 相关 。 例 如 ， 有 的 处 理 器 (如 Sun UltraSPARC) 提供 
了 多 个 寄存 器 组 ， 上 下 文 切 换 只 需 简单 改变 当前 寄存 器 组 的 指针 。 当 然 ， 如 果 活 动 进程 数量 
超过 寄存 器 的 组 数 ， 那 么 系统 需要 像 以 前 一 样 在 寄存 器 与 内 存 之 间 进 行 数据 复制 。 而 且 ， 操 
作 系 统 越 复 杂 ， 上 下 文 切 换 所 要 做 的 就 越 多 。 正 如 第 8 章 要 讨论 的 ， 高 级 的 内 存 管理 技术 在 
每 次 上 下 文 切 换 时 ， 所 需 切换 的 数据 会 更 多 。 例 如 ， 在 使 用 下 一 个 进程 的 地 址 空间 之 前 ， 需 
要 保存 当前 进程 的 地 址 空间 。 如 何 保存 地 址 空间 ， 需 要 做 什么 才能 保存 等 ， 取 决 于 操作 系统 

的 内 存 管理 方法 。 


移动 操作 系统 的 多 任务 

由 于 移动 设备 的 限制 ， 早 期 版 本 的 iOS 没有 提供 多 任务 的 用 户 应 用 程序 ; 只 有 一 个 
应 用 程序 在 前 台 运 行 ， 所 有 其 他 用 户 应 用 程序 都 被 挂 起 。 这 种 操作 系统 是 多 任务 的 ， 是 
由 Apple 公司 开发 的 。 然 而 ， 从 iOS 4 后 ，Apple 就 为 用 户 应 用 程序 提供 了 一 种 有 限 形 
式 的 多 任务 ， 从 而 多 许 一 个 前 台 应 用 程序 可 以 与 多 个 后 台 应 用 程序 同时 运行 。( 对 于 移 
动 设备 ， 前 台 (foreground) 应 用 程序 为 正在 打开 的 并 显示 在 屏幕 上 的 应 用 程序 ， 而 后 台 
(background) 应 用 程序 为 位 于 内 存 并 不 占用 屏幕 显示 的 应 用 程序 。) iOS 4 编程 API 提供 
了 多 任务 支持 ， 允 许 一 个 进程 在 后 台 运 行 而 不 被 挂 起 。 然 而 ， 这 个 功能 是 有 限 的 ， 只 适用 
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于 少量 类 型 应 用 程序 ， 包 括 : 

e 运行 单个 、 长 度 有 限 的 任务 (例如 通过 网 络 完成 下 载 内 存 ); 

o 接收 事件 通知 (如 新 的 电子 邮件 消息 ); 

@ 可 长 时 间 运 行 的 后 人 台 任 务 ( 如 音频 播放 器 )。 

由 于 电池 寿命 和 内 存 使 用 等 原因 ，Apple 可 能 会 限制 多 任务 。 当 然 ，CPU 具有 支持 多 
任务 的 特征 ， 但 是 Apple 选择 不 用 某 些 优势 ， 以 便 更 好 地 管理 资源 使 用 。 

Android 系统 对 后 台 和 运行 的 应 用 程序 没有 这 种 限制 。 如 果 一 个 应 用 程序 需要 后 台 处 
理 ， 那 么 这 个 应 用 程序 必须 使 用 服务 ( service)， 即 为 后 台 进 程 运行 的 、 独 立 的 应 用 程序 
组 件 。 以 音频 流 应 用 程序 为 例 : 如 果 应 用 程序 移 到 后 台 运 行 ， 那 么 服务 会 为 后 台 应 用 程 
序 继续 发 送 音频 文件 到 音频 设备 驱动 程序 。 事 实 上 ， 即 使 后 台 应 用 程序 挂 起 ， 服 务 仍 将 
继续 运行 。 服 务 没有 用 户 界 面 ， 并 且 占 用 内 存 少 ， 因 此 为 移动 环境 提供 了 高 效 的 多 任务 
支持 。 


3.3 进程 运行 
大 多 数 系统 的 进程 能 够 并 发 执行 ， 它 们 可 以 动态 创建 和 删除 。 因 此 ， 操 作 系 统 必 须 


提供 机 制 ， 以 创建 进程 和 终止 进程 。 本 节 探 讨 进 程 创 建 机 制 ， 并 且 举 例 说 明 UNIX 系统 和 
Windows 系统 的 进程 创建 。 


3.3.1 进程 创建 


进程 在 执行 过 程 中 可 能 创建 多 个 新 的 进程 。 正 如 前 面 所 述 ， 创 建 进 程 称 为 父 进程 ， 而 新 
的 进程 称 为 子 进程 。 每 个 新 进程 可 以 再 创建 其 他 进程 ， 从 而 形成 进程 树 (process tree). 

大 多 数 的 操作 系统 (包括 UNIX、Linux 和 Windows) 对 进程 的 识别 采用 的 是 唯一 的 进 
程 标识 符 (process identifier，pid)， 这 通常 是 一 个 整数 值 。 系 统 内 的 每 个 进程 都 有 一 个 唯一 
pid， 它 可 以 用 作 索 引 ， 以 便 访 问 内 核 中 的 进程 的 各 种 属性 。 

图 3-8 显示 了 Linux 操作 系统 的 一 个 典型 进程 树 ， 包 括 进程 的 名 称 和 pid。( 我 们 通常 
使 用 进程 这 个 术语 ， 不 过 Linux 偏爱 任务 (task) 这 个 术语 。) 进程 init (EM pid 总 是 1 )， 
作为 所 有 用 户 进 程 的 根 进程 或 父 进程 。 一 旦 系统 启动 后 ， 进 程 init 可 以 创建 各 种 用 户 进 
程 ， 如 Web 服务 器 、 打 印 服务 器 、ssh 服务 器 等 。 在 图 3-8 中 ，Kkthreadd 和 sshd 为 init 
的 两 个 子 进程 。kthreadd 进程 负责 创建 额外 进程 ， 以 便 执 行内 核 任务 (这 里 为 khelper 
和 pdflush)。sshd 进程 负责 管理 通过 ssh (secure shell) 连 到 系统 的 客户 端 。login 进 
程 负责 管理 直接 登录 到 系统 的 客户 端 。 在 这 个 例子 中 ， 客 户 已 登录 ， 并 且 使 用 bash 外 
壳 ， 它 所 分 配 的 pid 为 8416。 采 用 bash 命令 行 界面 ， 这 个 进程 还 创建 了 进程 ps 和 emacs 
编辑 器 。 

对 于 UNIX 和 Linux 系统 ， 我 们 可 以 通过 ps 命令 得 到 一 个 进程 列表 。 例 如 ， 命 令 

ps -el 
可 以 列 出 系统 中 的 所 有 当前 活动 进程 的 完整 信息 。 通 过 递归 跟踪 父 进程 一 直到 进程 init, 
可 以 轻松 构造 类 似 图 3-8 所 示 的 进程 树 。 

一 般 来 说 ， 当 一 个 进程 创建 子 进程 时 ， 该 子 进 程 会 需要 一 定 的 资源 (CPU 时 间 、 内 存 、 
文件 、LO 设备 等 ) 来 完成 任务 。 子 进程 可 以 从 操作 系统 那里 直接 获得 资源 ， 也 可 以 只 从 父 
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进程 那里 获得 资源 子 集 。 父 进程 可 能 要 在 子 进程 之 间 分 配 资源 或 共享 资源 (如 内 存 或 文件 )。 
限制 子 进 程 只 能 使 用 父 进程 的 资源 ， 可 以 防止 创建 过 多 进程 ， 导 致 系统 超载 。 





图 3-8 典型 Linux 系统 的 一 个 进程 树 


除了 提供 各 种 物理 和 逻辑 资源 外 ， 父 进程 也 可 能 向 子 进 程 传递 初始 化 数据 (或 输入 ) 。 
例如 ， 假 设 有 一 个 进程 ， 其 功能 是 在 终端 屏幕 上 显示 文件 如 image.jpg 的 状态 。 当 该 进程 
被 创建 时 ， 它 会 从 父 进程 处 得 到 输入 ， 即 文件 名 称 image.jpg。 通 过 这 个 名 称 ， 它 会 打开 文 
件 ， 进 而 写 出 内 容 。 它 也 可 以 得 到 输出 设备 名 称 。 另 外 ， 有 的 操作 系统 会 向 子 进程 传递 资 
源 。 对 于 这 种 系统 ， 新 进程 可 得 到 两 个 打开 文件 ， 即 image.jpg 和 终端 设备 ， 并 且 可 以 在 
这 两 者 之 间 进 行 数据 传输 。 

当 进 程 创 建新 进程 时 ， 可 有 两 种 执行 可 能 : 

e 父 进程 与 子 进程 并 发 执行 。 

e 父 进程 等 待 ， 直 到 某 个 或 全 部 子 进程 执行 完 。 
新 进程 的 地 址 空间 也 有 两 种 可 能 : 

© 了 于 进程 是 父 进程 的 复制 品 ( 它 具有 与 父 进程 同样 的 程序 和 数据 )。 

o 子 进程 加 载 另 一 个 新 程序 。 
为 了 说 明 这 些 不 同 ， 首 先 看 一 看 UNIX 操作 系统 。 在 UNIX 中 ， 正 如 以 前 所 述 ， 每 个 进 
程 都 用 一 个 唯一 的 整 型 进程 标识 符 来 标识 。 通 过 系统 调用 fork() ， 可 创建 新 进程 。 新 进 
程 的 地 址 空间 复制 了 原来 进程 的 地 址 空间 。 这 种 机 制 允 许 父 进程 与 子 进程 轻松 通信 。 这 两 
个 进程 ( 父 和 子 ) 都 继续 执行 处 于 系统 调用 fork() 之 后 的 指令 , 但 有 一 点 不 同 : 对 于 新 
( 子 ) 进程 ， 系 统 调用 fork() 的 返回 值 为 0 ; 而 对 于 父 进程 ， 返 回 值 为 子 进程 的 进程 标识 符 
( 非 零 )。 

通常 ， 在 系统 调用 fork() 之 后 ， 有 个 进程 使 用 系统 调用 exec() ， 以 用 新 程序 来 取代 
进程 的 内 存 空间 。 系 统 调用 exec() 加 载 二 进 制 文件 到 内 存 中 (破坏 了 包含 系统 调用 exec() 
的 原来 程序 的 内 存 内 容 )， 并 开始 执行 。 采 用 这 种 方式 ， 这 两 个 进程 能 相互 通信 ， 并 能 按 各 
自 方法 运行 。 父 进程 能 够 创建 更 多 子 进程 ， 或 者 如 果 在 子 进程 运行 时 没有 什么 可 做 ， 那 么 它 
采用 系统 调用 wait() 把 自己 移出 就 绪 队 列 ， 直 到 子 进 程 终 止 。 因 为 调用 exec) 用 新 程序 
覆盖 了 进程 的 地 址 空间 ， 所 以 调用 exec() 除非 出 现 错误 ， 不 会 返回 控制 。 
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如 图 3-9 所 示 的 C 程序 说 明了 上 述 UNIX 系统 调用 。 这 里 有 两 个 不 同 进程 ， 但 运行 同 
一 程序 。 这 两 个 进程 的 唯一 差别 是 : 子 进 程 的 pid (process identifier) 值 为 0， 而 父 进程 的 
pid 值 大 于 0 (实际 上 ， 它 就 是 子 进程 的 pid)。 子 进程 继承 了 父 进程 的 权限 、 调 度 属性 以 及 
某 些 资源 ， 诸 如 打开 文件 。 通 过 系统 调用 execlp() (这 是 系统 调用 exec() 的 一 个 版 本 )， 
子 进 程 采 用 UNIX 命令 /bin/1s (用 来 列 出 目录 清单 ) 来 覆盖 其 地 址 空间 。 通 过 系统 调用 
wait() ， 父 进程 等 待 子 进程 的 完成 。 当 子 进程 完成 后 (通过 显示 或 隐 式 调用 exit()) ， 父 进 
程 会 从 wait() 调用 处 开始 继续 ， 并 且 结 束 时 会 调用 系统 调用 exit()。 这 可 用 图 3-10 表示 。 
















#include <sys/types.h> 
#include <stdio.h> 
#include <unistd.h> 


int main() 
pid_t pid; 


/* fork a child process */ 
pid = fork(); 


if (pid < 0) { /* error occurred */ 
fprintf(stderr, "Fork Failed"); 
return 1; 


} 
else if (pid == 0) { /* child process */ 
execlp("/bin/1s","1s",NULL) ; 


else { /* parent process */ 
/* parent will wait for the child to complete */ 
wait (NULL) ; 
printf ("Child Complete"); 

} 


return 0; 





Al 3-9 通过 UNIX 系统 调用 fork QO 来 创建 一 个 单独 进程 






父 进程 (pid > 0) AT 
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子 进程 (pa-0 一 VD 
图 3-10 通过 系统 调用 fork() 创建 进程 


当然 ， 没 有 什么 可 以 阻止 子 进程 不 调用 exec() ， 而 是 继续 作为 父 进程 的 副本 来 执行 。 
在 这 种 情况 下 ， 父 进程 和 子 进程 会 并 发 执行 ， 并 采用 同样 的 代码 指令 。 由 于 子 进程 是 父 进程 
的 一 个 副本 ， 这 两 个 进程 都 有 各 自 的 数据 副本 。 

作为 另 一 个 例子 ， 接 下 来 看 一 看 Windows 的 进程 创建 。 进 程 创建 采用 Windows API K 
数 CreateProcess() ， 它 类 似 于 fork() (这 是 父 进程 用 于 创建 子 进程 的 )。 不 过 ，fork() 
让 子 进程 继承 了 父 进 程 的 地 址 空间 ， 而 CreateProcess() 在 进程 创建 时 要 求 将 一 个 特定 程 
序 加 载 到 子 进程 的 地 址 空间 。 再 者 ，fork() 不 需要 传递 任何 参数 ,而 CreateProcess() 需 
要 传递 至 少 10 个 参数 。 

图 3-11 所 示 的 C 程序 演示 了 函数 CreateProcess() ， 它 创建 了 一 个 子 进 程 ， 并 且 加 载 了 
应 用 程序 mspaint.exe。 这 里 选择 了 10 个 参数 中 的 许多 默认 值 来 传递 给 CreateProcess()。 
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如 果 需 要 了 解 有 关 进 程 创建 和 管理 的 更 多 Windows API 细节 ， 则 可 以 查阅 本 章 后 面 的 推荐 读物 。 


#include <stdio.h> 
#include <windows.h> 


int main(VOID) 


STARTUPINFO si; 
PROCESS_INFORMATION pi; 


/* allocate memory */ 
ZeroMemory(&si, sizeof (si)); 
si.cb = sizeof(si); 
ZeroMemory(&pi, sizeof (pi)); 


/* create child process */ 
if (!CreateProcess(NULL, /* use command line */ 
"C:\\WINDOWS\\system32\\mspaint.exe", /* command */ 
NULL, /* don’t inherit process handle */ 
NULL, /* don’t inherit thread handle */ 
FALSE, /* disable handle inheritance */ 
0, /* no creation flags */ 
NULL, /* use parent’s environment block */ 
NULL, /* use parent’s existing directory */ 
&si, 


&pi)) 


fprintf(stderr, "Create Process Failed"); 
return -1; 
} 
/* parent will wait for the child to complete */ 
WaitForSingleObject(pi.hProcess, INFINITE); 
printf ("Child Complete"); 


/* close handles */ 
CloseHandle(pi.hProcess) ; 
CloseHandle (pi .hThread) ; 











Al 3-11 通过 Windows API 创建 一 个 单独 进程 


传递 给 CreateProcess() 的 两 个 参数 ， 为 结构 STARTUPINFO 和 PROCESS_INFORMATION 
的 实例 。 结 构 STARTUPINF0 指定 新 进程 的 许多 特性 ， 如 窗口 大 小 和 外 观 、 标 准 输入 与 输出 
的 文件 句柄 等 。 结 构 PROCESS_INFORMATION 含 新 进程 及 其 线程 的 句柄 与 标识 符 。 在 进行 
CeateProcess() ŻA, HAX ZeroMemory() 来 为 这 些 结构 分 配 内 存 。 

函数 CreateProcess() 的 头 两 个 参数 是 应 用 程序 名 称 和 命令 行 参 数 。 如 果 应 用 程序 名 
称 为 NULL (这 里 就 是 NULL ( 空 ))， 那 么 命令 行 参数 指定 了 所 要 加 载 的 应 用 程序 。 在 这 个 
例子 中 ， 加 载 的 是 Microsoft Windows 的 mspaint .exe 应 用 程序 。 除 了 这 两 个 初始 参数 之 
外 ， 这 里 使 用 系统 默认 参数 来 继承 进程 和 线程 句柄 ， 并 指定 没有 创建 标志 ;另外 ， 这 里 还 使 
用 了 父 进 程 的 已 有 环境 块 和 启动 目录 。 最 后 ， 提 供 了 两 个 指向 程序 刚 开始 时 所 创建 的 结构 
STARTUPINFO 和 PROCESS_INFORMATION 的 指针 。 在 图 3-9 中 ， 父 进程 通过 调用 wait() 系 
统 调用 等 待 子 进程 的 完成 ; 而 在 Windows 中 与 此 相当 的 是 WaitForSingle0bject()， 用 于 
等 待 进程 完成 ， 它 的 参数 指定 了 子 进程 的 句柄 即 pi.hProcess。 一 旦 子 进程 退出 ， 控 制 会 
从 函数 WaitForSingle0bject() 回 到 父 进程 。 


3.3.2 ”进程 终止 
当 进 程 完 成 执行 最 后 语句 并 且 通 过 系统 调用 exit () 请 求 操作 系统 删除 自身 时 ， 进 程 终 


常 3 童 4h #2 83 


止 。 这 时 ， 进 程 可 以 返回 状态 值 (通常 为 整数 ) 到 父 进程 (通过 系统 调用 wait() )。 所 有 进 
程 资 源 ， 如 物理 和 虚拟 内 存 、 打 开 文 件 和 IO 缓冲 区 等 ， 会 由 操作 系统 释放 。 

在 其 他 情况 下 也 会 出 现 进程 终止 。 进 程 通 过 适当 系统 调用 (如 Windows 的 Terminate- 
Process() )， 可 以 终止 另 一 进程 。 通 常 ， 只 有 终止 进程 的 父 进程 才能 执行 这 一 系统 调用 。 否 
则 ， 用 户 可 以 任意 终止 彼此 的 作业 。 记 住 ， 如 果 终 止 子 进程 ， 则 父 进程 需要 知道 这 些 子 进程 
的 标识 符 。 因 此 ， 当 一 个 进程 创建 新 进程 时 ， 新 创建 进程 的 标识 符 要 传递 到 父 进程 。 

父 进程 终止 子 进 程 的 原因 有 很 多 ， 如 : 

o 子 进 程 使 用 了 超过 它 所 分 配 的 资源 。( 为 判定 是 否 发 生 这 种 情况 ， 父 进程 应 有 一 个 机 

制 ， 以 检查 子 进 程 的 状态 )。 

e 分 配给 子 进程 的 任务 ,不 再 需要 。 

e 父 进程 正在 退出 ， 而 且 操 作 系 统 不 允许 无 父 进程 的 子 进 程 继续 执行 。 

有 些 系 统 不 允许 子 进程 在 父 进程 已 终止 的 情况 下 存在 。 对 于 这 类 系统 ， 如 果 一 个 进程 
终止 (正常 或 不 正常 )， 那 么 它 的 所 有 子 进程 也 应 终止 。 这 种 现象 ， 称 为 级 联 终止 (cascade 
termination)， 通 常 由 操作 系统 来 启动 。 

为 了 说 明 进 程 执行 和 终止 ,下 面 以 Linux 和 UNIX 系统 为 例 : 可 以 通过 系统 调用 
exit() 来 终止 进程 ， 还 可 以 将 退出 状态 作为 参数 来 提供 。 


/* exit with status 1 */ 
exit(1); 


事实 上 ， 在 正常 终止 时 ，exit() 可 以 直接 调用 (如 上 所 示 )， 也 可 以 间接 调用 (通过 main() 
的 返回 语句 )。 

父 进程 可 以 通过 系统 调用 wait() ， 等 待 子 进程 的 终止 。 系 统 调用 wait() 可 以 通过 参 
数 ， 让 父 进程 获得 子 进 程 的 退出 状态 ; 这 个 系统 调用 也 返回 终止 子 进程 的 标识 符 ， 这 样 父 进 
程 能 够 知道 哪个 子 进程 已 经 终止 了 : 


pidt pid; 
int status; 


pid = wait(&wstatus) ; 


当 一 个 进程 终止 时 ， 操 作 系 统 会 释放 其 资源 。 不 过 ， 它 位 于 进程 表 中 的 条 目 还 是 在 的 ， 
直到 它 的 父 进程 调用 wait() ; 这 是 因为 进程 表 包 含 了 进程 的 退出 状态 。 当 进程 已 经 终止 ， 
但 是 其 父 进程 尚未 调用 wait() ， 这 样 的 进程 称 为 僵尸 进程 ( zombie process)。 所 有 进程 终 
止 时 都 会 过 渡 到 这 种 状态 ， 但 是 一 般 而 言 僵尸 只 是 短暂 存在 。 一 且 父 进程 调用 了 wait() ， 
僵尸 进程 的 进程 标识 符 和 它 在 进程 表 中 的 条 目 就 会 释放 。 

如 果 父 进程 没有 调用 wait() 就 终止 ， 以 致 于 子 进程 成 为 孤儿 进程 orphan process), 
那么 这 会 发 生 什 么 ? Linux 和 UNIX 对 这 种 情况 的 处 理 是 : 将 init 进程 作为 孤儿 进程 的 父 
进程 。( 回 想 一 下 图 3-8，init 进程 是 UNIX 和 Linux 系统 内 进程 树 的 根 进程 。) 进程 init 
定期 调用 wait() ， 以 便 收 集 任何 孤儿 进程 的 退出 状态 ， 并 释放 孤儿 进程 标识 符 和 进程 表 
条 目 。 


3.4 进程 间 通 信 


操作 系统 内 的 并 发 执行 进程 可 以 是 独立 的 或 也 可 以 是 协作 的 。 如 果 一 个 进程 不 能 影响 
其 他 进程 或 受 其 他 进程 影响 ， 那 么 该 进程 是 独立 的 。 显 然 ， 不 与 任何 其 他 进程 共享 数据 的 进 
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程 是 独立 的 。 如 果 一 个 进程 能 影响 其 他 进程 或 受 其 他 进程 所 影响 ,那么 该 进程 是 协作 的 。 显 
然 ， 与 其 他 进程 共享 数据 的 进程 为 协作 进程 。 
提供 环境 允许 进程 协作 ， 具 有 许多 理由 : 
e 信息 共享 information sharing): 由 于 多 个 用 户 可 能 对 同样 的 信息 感 兴 趣 (例如 共享 
文件 )， 所 以 应 提供 环境 以 允许 并 发 访问 这 些 信息 。 
e 计算 加 速 (computation speedup): 如 果 希 望 一 个 特定 任务 快速 运行 ， 那么 应 将 它 分 
成 子 任务 ， 而 每 个 子 任务 可 以 与 其 他 子 任务 一 起 并 行 执行 。 注 意 ， 如 果 要 实现 这 样 
的 加 速 ， 那 么 计算 机 需要 有 多 个 处 理 核 。 
e 模块 化 (modularity): 可 能 需要 按 模块 化 方式 构造 系统 ， 如 第 2 章 所 讨论 的 ， 可 将 系 
统 功 能 分 成 独立 的 进程 或 线程 。 
e 方便 (convenience): 即使 单个 用 户 也 可 能 同时 执行 许多 任务 。 例 如 ， 用 户 可 以 并 行 
地 编辑 、 收 听 音 乐 、 编 译 。 
协作 进程 需要 有 一 种 进程 间 通 信 ( InterProcess Communication, IPC) 机 制 ， 以 允许 进 
程 相互 交换 数据 与 信息 。 进 程 间 通 信 有 两 种 基本 模型 ， 共享 内 存 (shared memory) 和 消息 传 
递 (message passing)。 共 享 内 存 模型 会 建立 起 一 块 供 协 作 进程 共享 的 内 存 区 域 ， 进 程 通过 
向 此 共享 区 域 读 出 或 写 人 数据 来 交换 信息 。 消 息 传 递 模 型 通过 在 协作 进程 间 交 换 消 息 来 实现 
通信 。 图 3-12 给 出 了 这 两 种 模型 的 对 比 。 
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a ) 消息 传递 b) 共享 内 存 

图 3-12 通信 模型 
上 述 两 种 模型 在 操作 系统 中 都 常见 ， 而 且 许 多 系统 也 实现 了 这 两 种 模型 。 消 息 传递 对 
于 交换 较 少 数量 的 数据 很 有 用 ， 因 为 无 需 避 人 免 冲突 。 对 于 分 布 式 系统 ， 消 息 传递 也 比 共 享 内 
存 更 易 实现 。 (虽然 许多 系统 提供 分 布 式 共享 内 存 ， 但 是 本 书 并 不 讨论 它们 。) 共享 内 存 可 以 
120] 快 于 消息 传递 ， 这 是 因为 消息 传递 的 实现 经 常 采 用 系统 调用 ， 因 此 需要 消耗 更 多 时 间 以 便 内 
BIA. 与 此 相反 ， 共 享 内 存 系统 仅 在 建立 共享 内 存 区 域 时 需要 系统 调用 ; 一 旦 建立 共享 内 

存 ， 所 有 访问 都 可 作为 常规 内 存 访问 ， 无 需 借助 内 核 。 


Chrome: 多 进程 架构 浏览 器 
许多 网 站 包含 活动 内 容 ， 如 JavaScript, Flash 和 HTMLS 等 ， 以 便 提 供 丰 富 的 、 动 态 
的 Web 浏览 体验 。 泪 憾 的 是 ， 这些 Web 应 用 程序 也 可 能 包含 软件 缺陷 ， 从 而 导致 响应 六 
|W, 有 的 甚至 导致 网 络 浏 览 器 崩溃 。 如 果 一 个 Web 浏览 器 只 对 一 个 网 站 进行 浏览 ， 那 么 
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这 不 是 一 个 大 问题 。 但是， 现代 Web 浏览 器 提供 标签 式 浏览 ， 它 允许 Web 浏览 器 的 一 个 
实例 ， 同 时 打开 多 个 网 站 ， 而 每 个 标签 代表 一 个 网 站 。 要 在 不 同 网 站 之 间 切 换 ， 用 户 只 需 
点 击 相 应 标签 。 这 种 安排 如 下 图 所 示 : 
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这 种 方法 的 一 个 问题 是 :如果 任 何 标签 的 Web 应 用 程序 崩溃 ， 那 么 整个 进程 (包括 
所 有 其 他 标签 所 显示 的 网 站 ) 也 会 崩溃 。 
Google 的 Chrome Web 浏览 器 通过 多 进程 架构 的 设计 解决 这 一 问题 。Chrome 具有 三 
种 不 同类 型 的 进程 : 浏览 器 、 泻 染 器 和 插件 。 
o 浏览 器 (browser) 进程 负责 管理 用 户 界 面 以 及 磁盘 和 网 络 的 IO。 当 Chrome 启动 
时 ， 创 建 一 个 新 的 浏览 器 进程 。 只 创建 了 一 个 浏览 器 进程 。 
o BAR (renderer) HEA ER AAEH Ahk, CNASHH, WERKE 
HTML, 、JavaScript 、 图 像 等 等 。 一 般 情 况 下 ， 对 应 于 新 标签 的 每 个 网 站 都 会 创建 
一 个 新 的 泻 染 进程 。 因 此 ， 可 能 会 有 多 个 泻 染 进程 同时 活跃 。 
o 对 于 正在 使 用 的 每 种 类 型 的 插件 (plug-in)(Flash 或 QuickTime 等 )， 都 有 一 个 插件 
进程 。 插 件 进程 不 但 包含 插件 本 身 代码 ,而 且 包 含 额外 代码 ， 以 便 与 有 关注 染 进 
程 和 浏览 器 进程 进行 通信 。 
多 进程 方法 的 优点 是 ; 网 站 彼此 独立 运行 。 如 果 有 一 个 网 站 出 江 ， NOES aap 
受到 影响 ; KAAMHBWRERLA. WH, BREE (sandbox) 中 运行 
意味 着 访问 磁盘 和 网 络 IO 是 受 限制 的 ， 进而 最 大 限度 地 减少 任何 安全 漏洞 的 影响 


对 具有 多 个 处 理 核 系统 的 最 新 研究 表明 : 在 这 类 系统 上 ， 消 息 传递 的 性 能 要 优 于 共享 

内 存 。 共 享 内 存 会 有 高 速 缓存 一 致 性 问题 ， 这 是 由 共享 数据 在 多 个 高 速 缓存 之 间 迁 移 而 引起 
。 随 着 系统 的 处 理 核 的 数量 的 日 益 增 加 ， 可 能 导致 消息 传递 作为 IPC 的 首选 机 制 。 
本 市 余下 部 分 ， 更 加 详细 讨论 共享 内 存 和 消息 传递 。 


3.4.1 ”共享 内 存 系统 


采用 共享 内 存 的 进程 间 通 信 ， 需 要 通信 进程 建立 共享 内 存 区 域 。 通 常 ， 一 片 共享 内 存 区 

域 驻 留 在 创建 共享 内 存 段 的 进程 地 址 空间 内 。 其 他 希望 使 用 这 个 共享 内 存 段 进行 通信 的 进程 

应 将 其 附加 到 自己 的 地 址 空间 。 回 忆 一 下 ,通常 操作 系统 试图 阻止 一 个 进程 访问 男 一 进程 的 

内 存 。 共 享 内 存 需 要 两 个 或 更 多 的 进程 同意 取消 这 一 限制 ;这样 它们 通过 在 共享 区 域内 读 出 

或 写 入 来 交换 信息 。 数 据 的 类 型 或 位 置 取决 于 这 些 进程 ， 而 不 是 受 控 于 操作 系统 。 男 外 ， 进 
程 负 责 确保 ， 它 们 不 向 同一 位 置 同时 写 人 数据 。 

为 了 说 明 协 作 进 程 的 概念 ， 我 们 来 看 一 看 生产 者 - 消费 者 问题 ， 这 是 协作 进程 的 通用 范 

例 。 生 产 者 (producer) 进程 生成 信息 ， 以 供 消费 者 (consumer) 进程 消费 。 例 如 ， 编 译 器 生 

成 的 汇编 代码 可 供 汇 编程 序 使 用 ， 而 且 汇 编程 序 又 可 生成 目标 模块 以 供 加 载 程 序 使 用 。 生 产 

-消费 者 问题 同时 还 为 客户 机 = 服务 器 范例 提供 了 有 用 的 比喻 。 通 常 ， 将 服务 器 当 作 生 产 
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者 ， 而 将 客户 机 当 作 消费 者 。 例 如 ， 一 个 Web 服务 器 生成 (提供 ) HTML 文件 和 图 像 ， 以 供 
请 求 资源 的 Web 客户 浏览 器 使 用 ( 读 取 )。 

解决 生产 者 - 消费 者 问题 的 方法 之 一 是 ， 采 用 共享 内 存 。 为 了 允许 生产 者 进程 和 消费 
者 进程 并 发 执行 ， 应 有 一 个 可 用 的 缓冲 区 ， 以 被 生产 者 填充 和 被 消费 者 清空 。 这 个 缓冲 区 驻 
留 在 生产 者 进程 和 消费 者 进程 的 共享 内 存 区 域内 。 当 消费 者 使 用 一 项 时 ， 生 产 者 可 产生 男 一 
项 。 生 产 者 和 消费 者 必须 同步 ， 这 样 消费 者 不 会 试图 消费 一 个 尚未 生产 出 来 的 项 。 

缓冲 区 类 型 可 分 两 种 。 无 界 缓冲 区 ( unbounded-buffer) 没有 限制 缓冲 区 的 大 小 。 消 费 
者 可 能 不 得 不 等 待 新 的 项 ， 但 生产 者 总 是 可 以 产生 新 项 。 有 界 缓冲 区 (bounded-buffer) 假设 
固定 大 小 的 缓冲 区 。 对 于 这 种 情况 ， 如 果 缓 冲 区 空 ， 那 么 消费 者 必须 等 待 ; 并 且 如 果 缓 冲 区 
满 ， 那 么 生产 者 必须 等 待 。 

下 面 深入 分 析 ， 有 界 缓冲 区 如 何 用 于 通过 共享 内 存 的 进程 间 通信 。 以 下 变量 驻 留 在 由 生 
产 者 和 消费 者 共享 的 内 存 区 域 中 : 

#define BUFFER_SIZE 10 

typedef struct { 

Jitem; f 

item buffer [BUFFER_SIZE] ; 


int in = 0; 
int out = 0; 


共享 buffer 的 实现 采用 一 个 循环 数组 和 两 个 逻辑 指针 : in Mout, E in 指向 缓冲 区 
的 下 一 个 空位 ; 变量 out 指向 缓冲 区 的 第 一 个 满 位 。 当 in == out 时 ,缓冲 区 为 空 ; 当 
(in + 1)%BUFFER SIZE == out 时 ,缓冲 区 为 满 。 

生产 者 进程 和 消费 者 进程 的 代码 ， 分 别 如 图 3-13 和 图 3-14 所 示 。 生 产 者 进程 有 一 
个 局 部 变量 next_produced， 以 便 存储 生成 的 新 项 。 消 费 者 进程 有 一 个 局 部 变量 next. 
consumed， 以 便 存储 所 要 使 用 的 新 项 。 


item next_consumed; 


while (true) { while (true) { 
/* produce an item in next_produced */ while (in == out) 


; /* do nothing */ 
while (((in + 1) %BUFFERSIZE) == out) 
; /* do nothing */ next_consumed = buffer [out] ; 
out = (out + 1) % BUFFER SIZE; 
buffer[in] = next produced; 
in = (in + 1) % BUFFER SIZE; /* consume the item in next_consumed */ 





} 
图 3-13 采用 共享 内 存 的 生产 者 进程 图 3-14 采用 共享 内 存 的 消费 者 进程 
这 种 方法 允许 缓冲 区 的 最 大 值 为 BUFFER_SIZE-1 ; 允许 最 大 值 为 BUFFER_SIZE 的 问 
题 作 为 练习 留 给 读者 。3.5.1 节 将 会 讨论 POSIX API 的 共享 内 存 。 


刚才 的 例子 没有 处 理 生产 者 和 消费 者 同时 访问 共享 内 存 的 问题 。 第 6 章 将 会 讨论 ， 在 共 
享 内 存 环境 下 协作 进程 如 何 有 效 实现 同步 。 


3.4.2 消息 传递 系统 
3.4.1 节 显 示 了 ， 协 作 进 程 如 何 可 以 通过 共享 内 存 进 行 通信 。 这 种 方案 要 求 : 这 些 进程 
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共享 一 个 内 存 区 域 ， 并 且 应 用 程序 开发 人 员 需 要 明确 编写 代码 ， 以 访问 和 操作 共享 内 存 。 
达到 同样 效果 的 另 一 种 方式 是 ， 操 作 系 统 提 供 机 制 ， 以 便 协作 进程 通过 消息 传递 功能 进行 
通信 。 

消息 传递 提供 一 种 机 制 ， 以 便 允许 进程 不 必 通 过 共享 地 址 空间 来 实现 通信 和 和 同步 。 对 分 
布 式 环境 (通信 进程 可 能 位 于 通过 网 络 连 接 的 不 同 计算 机 )， 这 特别 有 用 。 例 如 ， 可 以 设计 
一 个 互联 网 的 聊天 程序 以 便 聊天 参与 者 通过 交换 消息 相互 通信 。 


消息 传递 工具 提供 至 少 两 种 操作 : 
send (message) receive (message) 


进程 发 送 的 消息 可 以 是 定 长 的 或 变 长 的 。 如 果 只 能 发 送 定 长 消息 ， 那 么 系统 级 实现 就 简单 。 
不 过 ， 这 一 限制 使 得 编程 任务 更 加 困难 。 相 反 ， 变 长 消息 要 求 更 复杂 的 系统 级 实现 , 但 是 编 
程 任务 变 得 更 为 简单 。 在 整个 操作 系统 设计 中 ， 这 种 折 中 很 常见 。 

如 果 进 程 P 和 0 需要 通信 ， 那 么 它们 必须 互相 发 送 消息 和 接收 消息 : 它们 之 间 要 有 通 
信和 链 路 ( communication link)。 该 链 路 的 实现 有 多 种 方法 。 这 里 不 关心 链 路 的 物理 实现 ， 而 
只 关心 链 路 的 逻辑 实现 。 这 里 有 几 个 方法 ， 用 于 逮 辑 实现 链 路 和 操作 send()/receive(): 

e 直接 或 间接 的 通信 

e 同步 或 异步 的 通信 

e 自动 或 显 式 的 缓冲 
下 面 研 究 这 些 特 征 的 相关 问题 。 
3.4.2.1 命名 

需要 通信 的 进程 应 有 一 个 方法 ， 以 便 互 相 引用 。 它 们 可 以 使 用 直接 或 间接 的 通信 。 

对 于 直接 通信 (direct communication)， 需 要 通信 的 每 个 进程 必须 明确 指定 通信 的 接收 
者 或 发 送 者 。 采 用 这 种 方案 ， 原 语 send() 和 receive() 定义 如 下 : 

e send(P, message): 问 进程 P AIK message, 

e receive(Q, message): 从 进程 Q 接收 message, 

这 种 方案 的 通信 和 链 路 具有 以 下 属性 : 

e 在 需要 通信 的 每 对 进程 之 间 ， 自 动 建立 链 路 。 进 程 仅 需 知道 对 方 身份 就 可 进行 交流 。 

e 每 个 链 路 只 与 两 个 进程 相关 。 

e 每 对 进程 之 间 只 有 一 个 链 路 。 

这 种 方案 展示 了 寻 址 的 对 称 性 ( symmetry)， 即 发 送 和 接收 进程 必须 指定 对 方 ， 以 便 通 
信 。 这 种 方案 的 一 个 变形 采用 寻 址 的 非 对 称 性 (asymmetry)， 即 只 要 发 送 者 指定 接收 者 ， 而 
接收 者 不 需要 指定 发 送 者 。 采 用 这 种 方案 ， 原 语 send() 和 receive() 的 定义 如 下 : 

e send(P, message): 向 进程 P AIK message. 

e receive(id, message) : 从 任何 进程 ， 接 收 message， 这 里 变量 id 被 设置 成 与 其 

通信 进程 的 名 称 。 

这 两 个 方案 (对 称 和 非 对 称 的 寻 址 ) 的 缺点 是 : 生成 进程 定义 的 有 限 模块 化 。 更 改进 程 
的 标识 符 可 能 需要 分 析 所 有 其 他 进程 定义 。 所 有 旧 的 标识 符 的 引用 都 应 找到 ， 以 便 修改 成 为 
新 标识 符 。 通 常 ， 任 何 这 样 的 硬 编码 ( hard-coding) 技术 (其 中 标识 符 需 要 明确 指定 )， 与 下 
面 所 述 的 采用 间接 的 技术 相 比 要 差 。 

在 间接 通信 (indirect communication) 中 ， 通 过 邮箱 或 端口 来 发 送 和 接收 消息 。 邮 箱 可 
以 抽象 成 一 个 对 象 ， 进 程 可 以 向 其 中 存放 消息 ， 也 可 从 中 删除 消息， 每 个 邮箱 都 有 一 个 唯 
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一 的 标识 符 。 例 如 ，POSIX 消息 队列 采用 一 个 整数 值 来 标识 一 个 邮箱 。 一 个 进程 可 以 通过 
多 个 不 同 邮箱 与 另 一 个 进程 通信 ， 但 是 两 个 进程 只 有 拥有 一 个 共享 邮箱 时 才能 通信 。 原 语 
send() 和 receive() 定义 如 下 : 

e send(A, message): 向 邮 箱 A AIK message, 

e receive(A, message): 从 邮箱 A 接收 message。 
对 于 这 种 方案 ,通信 和 链 路 具有 如 下 特点 : 

e 只 有 在 两 个 进程 共享 一 个 邮箱 时 ， 才 能 建立 通信 和 链 路 。 

e 一 个 链 路 可 以 与 两 个 或 更 多 进程 相关 联 。 

© 两 个 通信 进程 之 间 可 有 多 个 不 同 链 路 ， 每 个 链 路 对 应 于 一 个 邮箱 。 

现在 假设 进程 已 、 忆 和 P; 都 共享 邮箱 A。 进 程 Pi 发 送 一 个 消息 到 A， 而 进程 P, 和 PP， 
都 对 A 执行 receive()。 哪 个 进程 会 收 到 Pi 发送 的 消息 ? 答案 取决 于 所 选择 的 方案 : 

© 允许 一 个 链 路 最 多 只 能 与 两 个 进程 关联 。 

© 允许 一 次 最 多 一 个 进程 执行 操作 receive()。 

© 允许 系统 随意 选择 一 个 进程 以 便 接收 消息 ( 即 进程 Pa 和 P; 两 者 之 一 都 可 以 接收 消 

息 ,但 不 能 两 个 都 可 以 )。 系 统 同样 可 以 定义 一 个 算法 来 选择 哪个 进程 是 接收 者 (如 
轮转 ， 进 程 轮流 接收 消息 )。 系 统 可 以 让 发 送 者 指定 接收 者 。 

邮箱 可 以 为 进程 或 操作 系统 拥有 。 如 果 邮 箱 为 进程 拥有 ( 即 邮箱 是 进程 地 址 空间 的 一 部 
分 )， 那 么 需要 区 分 所 有 者 (只 能 从 邮箱 接收 消息 ) 和 使 用 者 (只 能 向 邮箱 发 送 消 息 )。 由 于 
每 个 邮箱 都 有 唯一 的 标识 符 ， 所 以 关于 谁 能 接收 发 到 邮箱 的 消息 没有 任何 疑问 。 当 拥有 邮箱 
的 进程 终止 ， 那么 邮箱 消失 。 任 何 进程 后 来 向 该 邮箱 发 送 消 息 ， 都 会 得 知 邮箱 不 再 存在 。 

与 此 相反 ,操作 系统 拥有 的 邮箱 是 独立 存在 的 ; 它 不 属于 某 个 特定 进程 。 因 此 ， 操 作 系 
统 必 须 提供 机 制 ， 以 便 允 许 进程 进行 如 下 操作 : 

e 创建 新 的 邮箱 。 

e 通过 邮箱 发 送 和 接收 消息 。 

e 删除 邮箱 。 
创建 新 邮箱 的 进程 缺 省 为 邮箱 的 所 有 者 。 开 始 时 ， 所 有 者 是 唯一 能 通过 该 邮箱 接收 消息 的 进 
程 。 不 过 ,通过 系统 调用 ,拥有 权 和 接收 特权 可 以 传 给 其 他 进程 。 当 然 ， 这 样 可 以 导致 每 个 
邮箱 具有 多 个 接收 者 。 
3.4.2.2 同步 

进程 间 通 信 可 以 通过 调用 原 语 send() 和 receive() 来 进行 。 实 现 这 些 原 语 有 不 
同 的 设计 方案 。 消 息 传 递 可 以 是 阻塞 (blocking) 或 非 阻 塞 (nonblocking)， 也 称 为 同步 
( synchronous) 或 异步 (asynchronous)。( 本 书 的 多 种 操作 系统 算法 会 涉及 同步 和 异步 行为 的 
概念 。) 

© 阻塞 发 送 (blocking send): 发 送 进程 阻塞 ， 直 到 消息 由 接收 进程 或 邮箱 所 接收 。 

© 非 阻塞 发 送 (nonblocking send); 发 送 进程 发 送 消息 ， 并 且 恢 复 操作 。 

o 阻塞 接收 (blocking receive): 接收 进程 阻塞 ， 直 到 有 消息 可 用 。 

o 非 阻塞 接收 (nonblocking receive): 接收 进程 收 到 一 个 有 效 消息 或 空 消息 。 

不 同 组 合 的 send() 和 receive() 都 有 可 能 。 当 send() 和 receive() 都 是 阻塞 的 ， 则 
在 发 送 者 和 接收 者 之 间 就 有 一 个 交会 ( rendezvous)。 当 采用 阻塞 的 send() 和 receive() 
时 ， 生 产 者 - 消费 者 问题 的 解决 就 简单 了 。 生 产 者 仅 需 调 用 阻塞 send() 并 且 等 待 ， 直 到 消 
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息 被 送 到 接收 者 或 邮箱 。 同 样 ， 当 消费 者 调用 receive() 时 ， 它 会 阻塞 直到 有 一 个 消息 可 
用 。 这 种 情况 见 图 3-15 和 图 3-16。 


message next_produced; message next_consumed; 


while (true) { 
/* produce an item in next_produced */ 


while (true) { 
receive (next consumed) ; 


send (next_produced) ; /* consume the item in next_consumed */ 


} } 


图 3-15 采用 消息 传递 的 生产 者 进程 图 3-16 采用 消息 传递 的 消费 者 进程 





3.4.2.3 缓存 
不 管 通信 和 是 直接 的 还 是 间接 的 ， 通 信 进 程 交换 的 消息 总 是 驻 留 在 临时 队列 中 。 简 单 地 
讲 ， 队 列 实现 有 三 种 方法 : 
e AE (zero capacity): 队列 的 最 大 长 度 为 0; 因此 ， 链 路 中 不 能 有 任何 消息 处 于 等 
待 。 对 于 这 种 情况 ， 发 送 者 应 阻塞 ， 直 到 接收 者 接收 到 消息 。 
e 有 限 容量 ( bounded capacity): 队列 长 度 为 有 限 的 n ; 因此 ， 最 多 只 能 有 个 消息 驻 
留 其 中 。 如 果 在 发 送 新 消息 时 队列 未 满 ， 那 么 该 消息 可 以 放 在 队列 中 (或 者 复制 消息 
或 者 保存 消息 的 指针 )， 且 发 送 者 可 以 继续 执行 而 不 必 等 待 。 然 而 ， 链 路 容量 是 有 限 
的 。 如 果 链 路 已 满 ， 那 么 发 送 者 应 阻塞 ， 直 到 队列 空间 有 可 用 的 为 止 。 
e 无 限 容量 ( unbounded capacity): 队列 长 度 可 以 无 限 ， 因 此 ， 不 管 多 少 消息 都 可 在 其 
中 等 待 。 发 送 者 从 不 阻塞 。 
零 容 量 情况 称 为 无 缓冲 的 消息 系统 ， 其 他 情况 称 为 自动 缓冲 的 消息 系统 。 


3.5 IPC 系统 例子 


本 节 探 讨 三 种 不 同 的 IPC 系统 。 首 先 讨 论 共 享 内 存 的 POSIX API， 然 后 讨论 Mach 操作 
系统 的 消息 传递 ， 最 后 讨论 Windows， 有 趣 的 是 ， 它 采用 共享 内 存 机 制 以 提供 有 些 类 型 的 消 
息 传递 。 


3.5.1 例子 : POSIX 共享 内 存 


POSIX 系统 具有 多 种 IPC 机 制 ， 包 括 共享 内 存 和 消息 传递 。 这 里 讨论 共享 内 存 的 POSIX 
API. 

POSIX 共享 内 存 的 实现 为 内 存 映射 文件 ， 它 将 共享 内 存 区 域 与 文件 相关 联 。 首 先 ， 进 
程 必须 通过 系统 调用 shm_open() 创建 共享 内 存 对 象 ， 如 下 所 示 : 


shm fd = shm_open(name, O_CREAT | O_RDRW, 0666); 


第 一 个 参数 指定 共享 内 存 对 象 的 名 称 。 当 进程 必须 访问 共享 内 存 时 ， 需 要 通过 这 个 名 称 。 
随后 参数 指定 : 当 它 不 存在 时 ， 需 要 创建 共享 内 存 (O_CREAT) ; 对 象 需要 打开 以 便 读 写 
(O_RDRW)。 最 后 一 个 参数 ， 设 定 共享 内 存 对 象 的 目录 权限 。shm_open() 的 成 功 调用 返回 
用 于 共享 内 存 对 象 的 一 个 文件 描述 符 。 

一 旦 创建 了 对 象 ， 函 数 ftruncate() 可 用 于 配置 对 象 的 大 小 〈 以 字 节 为 单位 )。 下 面 的 
调用 


ftruncate(shmfd, 4096); 
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将 对 象 的 大 小 设置 成 4096 字 节 。 

最 后 ， 函 数 mmap() 创建 内 存 映 射 文件 ， 以 便 包含 共享 内 存 对 象 。 它 还 返回 一 个 指向 内 
存 映射 文件 的 指针 ， 以 便 用 于 访问 共享 内 存 对 象 。 

图 3-17 和 图 3-18 所 示 的 程序 采用 生产 者 - 消费 者 模型 来 实现 共享 内 存 。 生 产 者 创建 一 
个 共享 内 存 对 象 ， 向 共享 内 存 中 写 人 ; 消费 者 从 共享 内 存 中 读 出 。 


#include <stdio.h> 
#include <stlib.h> 
#include <string.h> 
#include <fcntl.h> 
#include <sys/shm,h> 
#include <sys/stat.h> 


int main() 


/* the size (in bytes) of shared memory object */ 
const int SIZE = 4096; 

/* name of the shared memory object */ 

const char *name = "0S"; 

/* strings written to shared memory */ 

const char *message.0 = "Hello"; 

const char *message_1 = "World!"; 


/* shared memory file descriptor */ 
int shm fd; 
/* pointer to shared memory obect */ 
void *ptr; 


/* create the shared memory object */ 
shm fd = shm_open(name, O_CREAT | O_RDRW, 0666); 


/* configure the size of the shared memory object */ 
ftruncate(shm fd, SIZE); 


/* memory map the shared memory object */ 
ptr = mmap(0, SIZE, PROT_WRITE, MAP_SHARED, shm fd, 0); 


/* write to the shared memory object */ 
sprintf (ptr,"%s",message_0) ; 

ptr += strlen(message_0) ; 

sprintf (ptr,"%s",message_1) ; 

ptr += strlen(message_1) ; 


return 0; 





图 3-17 采用 POSIX 共享 内 存 API 的 生产 者 进程 


如 图 3-17 所 示 ， 生 产 者 创建 了 一 个 名 为 08 的 共享 内 存 对 象 ， 并 向 共享 内 存 中 写 人 了 老 
套 的 字符 串 "Hello World!"。 该 程序 内 存 映 射 指 定 大 小 的 共享 内 存 对 象 ， 并 允许 对 该 对 象 
的 写 人 。( 显 然 ， 只 有 对 生产 者 ， 写 入 操作 才 是 必要 的 。) 标志 MAP_SHARED 表示 : 共享 内 存 
对 象 的 任何 改变 ， 对 于 所 有 共享 这 个 对 象 的 进程 都 是 可 见 的 。 注 意 : 对 共享 内 存 对 象 的 写 人 
是 通过 调用 函数 sprintf() 和 向 指针 ptr 写 人 格式 化 字符 串 。 每 次 写 人 ， 都 要 用 所 写字 节 
的 数量 来 递增 指针 。 

消费 者 进程 如 图 3-18 所 示 ， 读 出 并 输出 共享 内 存 内 容 。 在 消费 者 访问 了 内 存 对 象 后 ， 
它 可 调用 函数 shm_unlink() 移 除 共享 内 存 段 。 在 本 章 的 结尾 ， 还 有 一 些 编程 练习 会 使 用 
POSIX 共享 内 存 API。 此 外 ，9.7 节 还 会 深入 讨论 内 存 映 射 。 
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#include <stdio.h> 
#include <stlib.h> 
#include <fcntl.h> 


#include <sys/shm.h> 
#include <sys/stat.h> 


int main() 





/* the size (in bytes) of shared memory object */ 
const int SIZE = 4096; 

/* name of the shared amo object */ 

const char *name = "0S" 

/* shared memory file descriptor */ 

int shm_fd; 





/* pointer to shared memory obect */ 
void *ptr; 


/* open the shared memory object */ 
shm fd = shm_open (name, O_RDONLY, 0666) ; 


/* memory map the shared memory object */ 
ptr = mmap(0, SIZE, PROT READ, MAP_SHARED, shm fd, 0); 


/* read from the shared memory object */ 
printf ("%s", (char *)ptr); 


/* remove the shared memory object */ 
shm unlink (name) ; 


return 0; 














FA 3-18 RH POSIX 共享 内 存 API 的 消费 者 进程 


3.5.2 例子: Mach 


作为 消息 传递 的 例子 ， 下 面 来 看 一 看 Mach 操作 系统 。 在 第 2 HH, YEA Mac OS X 操 
作 系 统 的 一 部 分 ， 曾 介绍 过 Mach. Mach 内 核 支 持 多 任务 的 创建 和 删除 ; 这 里 的 任务 类 似 
于 进程 ， 但 是 具有 多 个 控制 线程 和 更 少 关联 资源 。Mach 的 大 多 数 通信 ， 包 括 所 有 进程 间 通 
信 ， 都 是 通过 消息 (message) 实现 的 。 消 息 的 发 送 和 接收 ， 采 用 邮箱 (Mach 称 之 为 端口 
(port) )。 

即使 系统 调用 也 是 通过 消息 进行 的 。 在 创建 一 个 任务 时 ， 也 创建 了 两 个 特殊 邮箱 :内 
核 邮 箱 ( Kernel mailbox) 和 通知 邮箱 ( Notify mailbox ) 。 内 核 使 用 内 核 邮 箱 与 任务 通信 ， 将 
事件 发 生 的 通知 发 送 到 通知 邮箱 。 消 息 传递 只 需 三 个 系统 调用 。 调 用 msg_sena() 向 邮箱 发 
送 消 息 。 调 用 msg_receive() 接收 消息 。 远 程 过 程 调用 (RPC) 通过 调用 msg_rpc() 执行 ， 
它 发 送 消 息 ， 并 且 等 待 一 个 确切 的 来 自发 送 者 的 返回 消息 。 这 样 ，RPC 模拟 了 典型 的 子 程序 
过 程 调用 ， 而 且 能 在 系统 之 间 工 作 ， 因 而 是 远程 的 (与 本 地 相对 )。3.6.2 节 详 细 讨 论 远程 过 
程 调 用 。 

系统 调用 port_allocate() 创建 新 邮箱 ， 并 为 消息 队列 分 配 空间 。 消 息 队 列 的 最 大 长 
度 缺 省 为 8 个 消息 。 创 建 邮箱 的 任务 是 邮箱 所 有 者 。 所 有 者 也 允许 接收 邮箱 消息 。 一 次 只 能 
有 一 个 任务 可 以 拥有 邮箱 或 从 邮箱 接收 ,但 是 如 果 需 要 ， 这些 权利 也 能 转 给 其 他 任务 。 

起 初 ， 邮 箱 消息 队 列 为 空 。 随 着 消息 发 到 邮箱 ， 消 息 复制 到 邮箱 中 。 所 有 消息 具有 同样 
的 优先 权 。Mach 确保 来 自 同一 发 送 者 的 多 个 消息 按照 FIFO 顺序 来 排队 ,但 并 不 确保 绝对 
的 顺序 。 例 如 ,来 自 两 个 发 送 者 的 消息 可 以 按 任何 顺序 排队 。 
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消息 本 身 包括 固定 大 小 的 头 部 和 可 变 大 小 的 数据 部 分 。 头 部 包括 消息 长 度 和 两 个 邮箱 名 


称 。 一 个 邮箱 名 称 指定 消息 发 送 到 的 邮箱 。 通 常 ， 发 送 线程 期 竺 回答， 这样 发 送 者 的 邮箱 名 


称 传 到 接收 任务 以 便 作为 “返回 地 址 ”。 

可 变 消息 部 分 为 具有 类 型 的 数据 项 的 一 个 链表 。 链 表 内 的 每 项 都 有 类 型 、 大 小 和 值 。 消 
息 内 指定 的 对 象 类 型 非常 重要 ， 因 为 操作 系统 定义 的 这 些 对 象 ， 如 拥有 权 或 接收 访问 权限 、 
任务 状态 、 内 存 段 等 ， 可 以 通过 消息 发 送 。 

发 送 和 接收 操作 本 身 灵活 。 例 如 ， 当 向 一 个 邮箱 发 送 消 息 时 ， 这 个 邮箱 或 许 已 满 。 如 果 
邮箱 未 满 ， 消 息 可 复制 到 邮箱 ， 发 送 线程 继续 。 如 果 邮 箱 已 满 ， 发 送 线程 可 有 四 个 选择 ; 

e 无 限期 地 等 待 ， 直 到 邮箱 里 有 空间 。 

o FIRE n 毫秒 。 

e 不 是 等 待 ， 而 是 立即 返回 。 

e 暂时 缓存 消息 。 即 使 所 要 发 送 到 的 邮箱 已 满 ， 还 是 可 让 操作 系统 保持 一 个 消息 。 当 

消息 能 被 放 到 邮箱 时 ， 通 知 消息 就 会 送 回 到 发 送 者 。 对 于 给 定 的 发 送 线 程 ， 在 任何 
时 候 ， 只 能 有 一 个 消息 可 给 已 满 的 邮箱 ， 以 便 等 待 处 理 。 

这 个 最 后 的 选项 用 于 服务 器 任务 ， 如 行 式 打印 机 的 驱动 程序 。 在 处 理 完 请 求 之 后 ， 这 些 任 务 
可 能 需要 发 送 一 个 一 次 性 的 应 答 到 请 求 服务 的 任务 ， 但 是 即使 在 客户 邮箱 已 满 时 也 应 继续 处 
理 其 他 服务 请 求 。 

接收 操作 必须 指明 ， 从 哪个 邮箱 或 邮箱 集合 接收 消息 。 一 个 邮箱 集合 ( mailbox set) 是 
某 个 任务 声明 的 一 组 邮箱 ， 它 们 可 以 组 合 起 来 作为 单个 邮箱 用 于 任务 目标 。 任 务 内 的 线程 只 
能 从 任务 具有 接收 权限 的 邮箱 或 邮箱 集合 中 接收 消息 。 系 统 调用 port_status() 返回 给 定 
邮箱 的 消息 数量 。 接 收 操作 试图 从 如 下 两 处 来 接收 消息 : 1 ) 邮箱 集合 内 的 任何 邮箱 , 或 2) 
特定 的 (指定 的 ) 邮箱 。 如 果 没 有 消息 等 待 接收 ， 接 收 线程 可 以 等 待 最 多 1n 毫秒 或 者 根本 不 
等 待 。 

Mach 系统 专门 为 分 布 式 系统 而 设计 ， 但 是 它 也 适用 于 多 核 的 系统 ，Mac OS X 系统 采 
用 Mach 就 说 明了 这 点 。 消 息 系统 的 主要 问题 是 : 双重 消息 复制 导致 性 能 更 差 ， 即 消息 首先 
从 发 送 方 复制 到 邮箱 ， 再 从 邮箱 复制 到 接收 方 。 通 过 虚拟 内 存 管 理 技术 (第 9 章 )，Mach 消 
息 系统 试图 避免 双重 复制 。 从 本 质 上 讲 ，Mach 将 发 送 者 的 地 址 空间 映射 到 接收 者 的 地 址 空 
间 ， 消 息 本 身 并 不 真正 复制 。 这 种 消息 管理 技术 大 大 地 提高 了 性 能 ， 但 是 只 适用 于 系统 内 部 
的 消息 传递 。 在 线 附 录 B 详细 讨论 了 Mach 操作 系统 。 


3.5.3 例子 : Windows 


Windows 操作 系统 是 现代 设计 的 一 个 例子 ， 它 通过 模块 化 增加 功能 并 且 减 少 实现 新 功 
能 所 需 的 时 间 。Windows 支持 多 个 操作 环境 或 子 系统 ( subsystem )， 应 用 程序 通过 消息 传递 
机 制 与 这 些 子 系统 进行 通信 。 因 此 ， 应 用 程序 可 以 作为 子 系统 服务 器 的 客户 。 

Windows 的 消息 传递 工具 称 为 高 级 本 地 程序 调用 (Advanced Local Procedure Call, 
ALPC) TH; 它 用 于 同一 机 器 的 两 进程 间 的 通信 。 它 类 似 于 广泛 使 用 的 、 标 准 的 远程 程序 
调用 ( Remote Procedure Call, RPC), 但 是 它 已 为 Windows 进行 了 专门 优化 。( 3.6.2 节 详 细 
讨论 远程 程序 调用 ,) 与 Mach 一 样 ，Windows 采用 端口 对 象 ， 以 便 建 立 和 维护 两 进程 间 的 
连接 。Windows 有 两 种 类 型 的 端口 : 连接 端口 (connection port) 和 通信 端口 (communication 
port). 
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服务 器 进程 发 布 连接 端口 对 象 ， 以 便 所 有 进程 都 可 访问 。 当 一 个 客户 需要 子 系统 服务 
时 ， 它 会 打开 服务 器 连接 端口 对 象 的 句柄 ， 并 向 端口 发 送 一 个 连接 请 求 。 然 后 ， 服 务 器 创建 
一 个 通道 ， 并 将 句柄 返 给 客户 。 通 道 包括 一 对 私有 通信 端口 : 一 个 用 于 客户 机 到 服务 器 的 消 
息 ， 另 一 个 用 于 服务 器 到 客户 机 的 消息 。 此 外 ， 通 道 有 个 回调 机 制 ， 允 许 客 户 和 服务 器 在 等 
待 应 答 时 也 能 接收 请 求 。 
在 创建 ALPC 信道 时 ， 有 三 种 消息 传递 技术 可 供 选 择 : 
e 对 于 小 消息 (最 多 256 字 节 )， 端 口 的 消息 队列 可 用 作 中 间 存 储 ， 消 息 可 从 一 个 进程 
复制 到 其 他 进程 。 
e 更 大 消息 必须 通过 区 段 对 象 ( section object) 传递 ， 区 段 对 象 为 通道 相关 的 共享 内 存 
区 段 。 
e 当 数 据 量 太 大 而 不 适合 于 区 段 对 象 时 ， 服 务 器 可 以 通过 API 直接 读 写 客户 的 地 址 
空间 。 
客户 在 建立 信道 时 ， 必 须 确定 所 需 发 送 的 消息 是 否 大 。 如 果 客 户 判 定 确实 要 发 送 大 的 消 
息 ， 那 么 它 就 请 求 创建 一 个 区 段 对 象 。 同 样 ， 如 果 服 务 器 决定 回复 消息 会 是 大 的 ， 那么 它 就 
创建 一 个 区 段 对 象 。 为 了 使 用 区 段 对 象 ， 可 发 送 包含 区 段 对 象 指针 与 大 小 信息 的 小 消息 。 这 
种 方法 比 上 面 列 出 的 第 一 种 方法 要 复杂 ， 但 是 它 避 免 了 数据 复制 。 图 3-19 显示 了 Windows 
的 高 级 本 地 程序 调用 的 结构 。 





图 3-19 Windows 高 级 本 地 程序 调用 


需要 注意 的 是 ，Windows 的 ALPC 功能 不 属于 Windows API， 因 此 不 能 为 应 用 程序 员 
所 使 用 。 不 过 ， 采 用 Windows API 的 应 用 程序 调用 标准 的 远程 程序 访问 。 当 同一 系统 的 进 
程 调用 RPC AY, RPC 通过 ALPC 来 间接 处 理 。 另 外 ， 许 多 内 核 服 务 通过 ALPC 与 客户 进程 
进行 通信 。 
3.6 客户 机 /服务 器 通信 


3.4 节 讨 论 了 进程 如 何 能 够 通过 共享 内 存 和 消息 传递 进行 通信 。 这 些 技术 也 可 用 于 客户 
机 /服务 器 系统 的 通信 (1.11.4 节 )。 本 节 探 讨 客户 机 / 服务 器 系统 通信 的 三 种 其 他 策略 : E 
接 字 、 远 程 程序 调用 (RPC) 和 管道 。 


3.6.1 BF 
套 接 字 (socket) 为 通信 的 端点 。 通 过 网 络 通信 的 每 对 进程 需要 使 用 一 对 套 接 字 ， 即 每 


94 FH-HD 进程 管理 


个 进程 各 有 一 个 。 每 个 套 接 字 由 一 个 IP 地 址 和 一 个 端口 号 组 成 。 通 常 ， 套 接 字 采 用 客户 
机 一 服务 器 架构 。 服 务 器 通过 监听 指定 端口 ， 来 等 待 客户 请 求 。 服 务 器 在 收 到 请 求 后 ， 接 受 
来 自 客户 套 接 字 的 连接 ， 从 而 完成 连接 。 实 现 特定 服务 (如 telnet. ftp 和 http) 的 服务 器 监 
听众 所 周知 的 端口 (telnet 服务 器 监听 端口 23 ftp 服务 器 监听 端口 21，Web 或 http 服务 器 
监听 端口 80 )。 所 有 低 于 1024 的 端口 都 是 众所周知 的 ,我 们 可 以 用 它们 来 实现 标准 服务 。 

当 客 户 进程 发 出 连接 请 求 时 ， 它 的 主机 为 它 
分 配 一 个 端口 。 这 个 端口 具有 大 于 1024 的 某 个 数 
字 。 例 如 ， 当 四 地 址 为 146.86.5.20 的 主机 X 的 
客户 希望 与 下地 址 为 161.25.19.8 的 Web 服 务 器 
(监听 端口 80 ) 建立 连接 时 ， 它 所 分 配 的 端口 可 
为 1625。 该 连接 由 一 对 套 接 字 组 成 : 主机 XX 上 的 
( 146.86.5.20:1625 ), Web 服务 器 上 的 ( 161.25.19.8:80 )。 
这 种 情况 如 图 3-20 所 示 。 根 据 目的 端口 号 码 ， 
主机 之 间 传 输 的 分 组 可 以 发 送 到 适当 的 进程 。 es 

所 有 连接 必须 是 唯一 的 。 因 此 ， 当 主机 X 的 20. Pee Rone 
另 一 个 进程 希望 与 同样 的 Web 服务 器 建立 另 一 个 连接 时 ， 它 会 分 配 到 另 一 个 大 于 1024 但 不 
等 于 1625 的 端口 号 。 这 确保 了 所 有 连接 都 由 唯一 的 一 对 套 接 字 组 成 。 

虽然 本 书 的 大 多 数 程序 实例 使 用 C 语言 ， 但 是 为 演示 套 接 字 我 们 会 用 Java 语言 AW 
Java 提供 一 个 更 加 简单 的 套 接 字 接 口 而 且 提供 丰富 的 网 络 工具 库 。 对 用 C 或 C++ 进行 网 络 
编程 感 兴趣 的 读者 ， 可 以 参考 本 章 结尾 的 推荐 读物 。 

Java 提供 三 种 不 同类 型 的 套 接 字 。 面 向 连接 ( connection-oriented) 的 TCP 套 接 字 是 用 
Socket 类 实现 的 。 无 连接 (connectionless) 的 UDP 套 接 字 使 用 DatagramSocket 类 。 最 后 ， 
MulticastSocket 类 为 DatagramSocket 类 的 子 类 ， 多 播 套 接 字 人 允许 数据 发 送 到 多 个 接收 者 。 

下 面 的 例子 ， 即 日 期 服务 器 ， 采 用 面向 连接 的 TCP 套 接 字 。 这 个 操作 允许 客户 机 向 服 
务 器 请 求 当 前 的 日 期 和 时 间 。 服 务 器 监听 端口 6013， 当 然 端 口号 可 以 是 任何 大 于 1024 的 数 
字 。 在 接收 到 连接 时 ， 服 务 器 将 日 期 和 时 间 返 回 给 客户 机 。 

日 期 服务 器 程序 如 图 3-21 所 示 。 服 务 器 创建 一 个 ServerSocket， 监 听 端 口号 6013 ; 
然后 调用 accept O 方法 ， 开 始 监听 端口 。 服 务 器 阻塞 在 方法 accept() 上 ， 等 待 客户 请 求 
连接 。 当 接收 到 连接 请 求 时 ，accept () 返回 一 个 套 接 字 ， 以 供 服务 器 与 客户 进程 进行 通信 。 

服务 器 如 何 与 套 接 字 通 信 的 有 关 细 节 如 下 。 服 务 器 首先 建立 PrintWriter 对 象 ， 以 便 
与 客户 进行 通信 。PrintWriter 对 象 允许 服务 器 通过 输出 方法 print() 和 println() 写 到 
套 接 字 。 服 务 器 通过 方法 println() 发 送 日 期 到 客户 机 。 服 务 器 在 将 日 期 写 到 套 接 字 后 ， 
就 关闭 与 客户 相连 的 套 接 字 ， 并 且 重 新 监听 更 多 请 求 。 

为 与 服务 器 通信 ， 客 户 创建 一 个 套 接 字 ， 并 且 连 到 服务 器 监听 的 端口 。 图 3-22 所 示 
的 Java 程序 为 客户 机 的 实现 。 客 户 创建 一 个 Socket， 并 与 PP 地 址 为 127.0.0.1 的 服务 器 端 
口 6013 建立 连接 。 连 接 建立 后 ， 客 户 就 通过 普通 的 流 IO 语句 来 从 套 接 字 进 行 读 取 。 在 收 
到 服务 器 的 日 期 后 ， 客 户 就 关闭 端口 ， 并 退出 。IP 地 址 127.0.0.1 为 特殊 IP 地 址 ， 称 为 回 送 
(loopback)。 当 计算 机 采用 地 址 127.0.0.1 时 ， 它 引用 自己 。 这 一 机 制 允 许 同 一 主机 的 客户 机 和 
服务 器 可 以 通过 TCP/IP 协议 进行 通信 。 耳 地 址 127.0.0.1 可 以 换 成 运行 日 期 服务 器 的 另 一 主机 
的 卫 地 址 。 除 卫 地 址 外 ， 也 可 采用 如 www.westminstercollege.edu 这 样 实际 的 主机 名 。 





Web 服 务 器 
(161.25.19.8) 


off. 





ee 














import java.net.*; 
import java.io.*; 


public class DateServer 


public static void main(String[] args) { 
try { 
ServerSocket sock = new ServerSocket (6013) ; 


/* now listen for connections */ 
while (true) { 
Socket client = sock.accept(); 


PrintWriter pout = new 
PrintWriter(client.getOutputStream(), true); 


/* write the Date to the socket */ 
pout.println(new java.util.Date() .toString()); 





/* close the socket and resume */ 
/* listening for connections */ 
client .close(); 


} 


catch (IOException ioe) { 
System.err.println(ioe) ; 





图 3-21 日 期 服务 器 


import java.net.*; 
import java.io.*; 


public class DateClient 


public static void main(String[] args) { 
try { 
/* make connection to server socket */ 
Socket sock = new Socket ("127.0.0.1",6013) ; 


InputStream in = sock.getInputStream() ; 
BufferedReader bin = new 
BufferedReader (new InputStreamReader (in) ) ; 


/* read the date from the socket */ 

String line; 

while ( (line = bin.readLine()) != null) 
System. out.println(line) ; 


/* close the socket connection*/ 
sock.close(); 


catch (IOException ioe) { 
System.err.println (ioe) ; 





图 3-22 日 期 客户 端 


使 用 套 接 字 的 通信 ， 虽 然 常 用 和 高 效 ， 但 是 属于 分 布 式 进程 之 间 的 一 种 低级 形式 的 通信 。 
一 个 原因 是 ， 套 接 字 只 允许 在 通信 线程 之 间 交换 无 结构 的 字 节 流 。 客 户 机 或 服务 器 程序 需要 
自己 加 上 数据 结构 。 下 面 两 小 节 将 介绍 两 种 更 高 级 的 通信 方法 : 远程 程序 调用 (RPC) 和 管道 。 
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3.6.2 ”远程 过 程 调用 

3.5.2 节 简 要 讨论 了 RPC， 这 是 一 种 最 为 常见 的 远程 服务 。RPC 对 于 通过 网 络 连接 系统 
之 间 的 过 程 调用 进行 了 抽象 。 它 在 许多 方面 都 类 似 于 3.4 节 所 述 的 IPC 机 制 ， 并 且 通 常 建立 
在 IPC 之 上 。 不 过 ， 因 为 现在 的 情况 是 进程 处 在 不 同系 统 上 ， 所 以 应 提供 基于 消息 的 通信 方 
案 ， 以 提供 远程 服务 。 

SIPC 的 消息 不 一 样 ，RPC 通信 交换 的 消息 具有 明确 结构 ， 因 此 不 再 仅仅 是 数据 包 。 
消息 传 到 RPC 服务 ，RPC 服务 监听 远程 系统 的 端口 号 ; 消息 包含 用 于 指定 : 执行 函数 的 一 
个 标识 符 以 及 传递 给 函数 的 一 些 参 数 。 然 后 ， 函 数 按 要 求 来 执行 ， 而 所 有 结果 会 通过 男 一 消 
息 ， 传 递 回 到 请 求 者 。 

WA (port) 只 是 一 个 数字 ， 处 于 消息 分 组 头 部 。 虽 然 每 个 系统 通常 只 有 一 个 网 络 地 址 ， 
但 是 对 于 这 个 地 址 它 有 许多 端口 号 ， 以 便 区 分 所 支持 的 多 个 网 络 服务 。 如 果 一 个 远程 进程 需 
要 服务 ， 那么 它 向 适当 端口 发 送 消息 。 例 如 ， 如 果 有 个 系统 允许 其 他 系统 列 出 当前 用 户 ， 那 
么 它 可 以 有 一 个 支持 这 个 的 RPC 服务 ， 该 服务 会 监听 某 个 端口 ， 如 3027。 任 何 一 个 远程 系 
统 如 要 得 到 所 需 信 息 〈 即 列 出 当前 用 户 )， 只 要 向 服务 器 端口 3027 发 送 一 个 RPC 消息 ， 就 能 
通过 回复 消息 收 到 数据 。 

RPC 语义 允许 客户 调用 位 于 远程 主机 的 过 程 ， 就 如 调用 本 地 过 程 一 样 。 通 过 客户 端 提 
供 的 存根 (stub), RPC 系统 隐藏 通信 细节 。 通 常 ， 对 于 每 个 单独 远程 过 程 ， 都 有 一 个 存根 。 
当 客 户 调用 远程 过 程 时 ，RPC 系统 调用 适当 存根 ， 并 且 传 递 远程 过 程 参数 。 这 个 存根 定位 服 
务 器 的 端口 ， 并 且 封 装 (marshal) 参数 。 封 装 参数 打包 参数 ， 以 便 通过 网 络 传输 。 然 后 ， 存 
根 通过 消息 传递 ， 向 服务 器 发 送 一 个 消息 。 服 务 器 的 类 似 存根 收 到 这 个 消息 ， 并 且 调 用 服务 
器 的 过 程 。 如 果 必 要 ， 返 回 值 可 通过 同样 技术 传 回 到 客户 机 。 对 于 Windows 系统 ， 编 译 由 
MIDL 语言 编写 的 规范 ， 可 以 生成 存根 代码 。Microsoft 接口 定义 语言 Microsoft Interface 
Definition Language, MIDL) 用 于 定义 客户 机 与 服务 器 之 间 的 接口 。 

有 一 个 必须 处 理 的 事项 ， 涉 及 如 何 处 理 客户 机 和 服务 器 系统 的 不 同 数据 表示 。 考 
E 32 位 整数 的 表示 。 有 的 系统 使 用 内 存 的 高 地 址 ， 以 存储 高 位 字 节 ( 称 为 大 端 结尾 (big- 
endian)); 而 其 他 系统 使 用 内 存 的 高 地 址 ， 以 存储 低位 字 节 【〈 称 为 小 端 结尾 (little-endian) ) 。 
没有 哪 种 顺序 “更 好 ”; 这 是 由 计算 机 体系 结构 来 选择 的 。 为 了 解决 这 一 差异 ， 许 多 RPC 
系统 定义 一 个 独立 于 机 器 的 数据 表示 。 一 种 这 样 的 表示 称 为 外 部 数据 表示 〈eXternal Data 
Representation，XDR)。 在 客户 端 ， 参 数 封装 将 机 器 相关 数据 打包 成 XDR， 再 发 送 到 服务 
器 。 在 服务 器 端 ，XDR 数据 被 分 封 ， 再 转 成 机 器 相关 数据 以 交 给 服务 器 。 

另外 一 个 重要 事项 涉及 调用 语义 。 虽 然 本 地 过 程 调用 只 在 极端 情况 下 才 失 败 ， 但 是 由 于 
常见 网 络 错误 ，RPC 可 能 执行 失败 或 者 多 次 重复 执行 。 解 决 这 个 问题 的 一 种 方法 是 : 操作 系 
统 确保 ， 每 个 消息 执行 正好 一 次 (exactly once)， 而 非 执行 最 多 一 次 (at most once)。 大 多 数 
本 地 过 程 调用 具有 “正好 一 次 ”的 特点 ， 但 是 实现 更 难 。 

首先 ， 考 虑 “最 多 一 次 " 。 这 种 语义 可 以 通过 为 每 个 消息 附加 时 间 戳 来 实现 。 服 务 器 对 
所 处 理 的 消息 应 有 一 个 完整 的 或 足够 长 的 时 间 戳 的 历史 ， 以 便 确 保 能 够 检测 到 重复 消息 。 进 
来 的 消息 ， 如 果 其 时 间 戳 已 出 现 过 ， 则 被 忽略 。 这 样 ， 客 户 能 够 一 次 或 多 次 发 送 消息 ， 并 确 
保 仅 执行 一 次 。 

对 于 “正好 一 次 "， 需 要 消除 服务 器 从 未 收 到 请 求 的 风险 。 为 了 做 到 这 点 ， 服 务 器 必须 
执行 前 面 所 述 的 “最 多 一 次 ”的 协议 ,但 是 也 必须 向 客户 确认 : RPC 调用 已 经 收 到 并 且 已 
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经 执行 。 这 些 ACK (确认 ) 消息 在 网 络 中 是 常见 的 。 客 户 机 应 周期 性 地 重 发 每 个 RPC 调用 ， 
直到 它 接收 到 对 该 调用 的 ACK。 

然而 ， 另 外 一 个 重要 问题 涉及 服务 器 和 客户 机 之 间 的 通信 。 对 于 标准 的 过 程 调 用 ， 链 
接 、 加 载 或 执行 (第 8 章 ) 有 一 定形 式 的 绑 定 ， 以 便 过 程 名 称 被 过 程 的 内 存 地 址 所 替代 。 
RPC 方案 也 要 有 一 个 类 似 于 客户 机 和 服务 器 端口 之 间 的 绑 定 ， 但 是 客户 机 如 何 知 道 服务 器 
上 的 端口 呢 ? 这 两 个 都 没有 对 方 的 完全 信息 ， 因 为 它们 并 不 共享 内 存 。 

有 两 种 方法 是 常见 的 。 第 一 种 方法 ， 绑 定 信息 可 以 按 国定 的 端口 地 址 形式 预先 固定 。 在 
编译 时 ，RPC 调用 有 一 个 与 它 关 联 的 固定 端口 。 一 旦 程序 编译 后 ， 服 务 器 无 法 更 改 请 求 服务 
的 端口 号 。 第 二 种 方法 ， 绑 定 通过 交会 机 制 动 态 进行 。 通 常 ， 操 作 系统 在 一 个 固定 RPC 端 
口上 ， 提 供 交 会 服务 程序 或 月 老 ( matchmaker)。 客 户 程序 发 送 一 个 包括 RPC 名 称 的 消息 到 
交会 服务 程序 ， 以 便 请 求 所 需 执 行 RPC 的 端口 地 址 。 在 得 到 返回 的 端口 号 后 ，RPC 调用 可 
以 发 送 到 这 一 端口 号 ， 直 到 进程 终止 (或 服务 器 崩溃 )。 这 种 方式 的 初始 请 求 需要 额外 开销 ， 
但 是 比 第 一 种 更 灵活 。 图 3-23 为 这 种 交互 的 一 个 实例 。 


客户 机 





图 3-23 ”远程 过 程 调 用 (RPC) 的 执行 
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RPC 方案 可 用 于 实现 分 布 式 文件 系统 。 这 种 系统 可 以 通过 一 组 RPC 服务 程序 和 客户 来 
实现 。 当 要 进行 文件 操作 时 ， 消 息 可 以 发 到 服务 器 的 分 布 式 文件 系统 的 端口 。 该 消息 包括 要 
执行 的 磁盘 操作 。 磁 盘 操 作 可 能 是 read ( 读 )、write ( 写 ).rename ( 重 命名 ).delete〈 删 除 ) 
或 status (状态 )， 对 应 于 通常 的 文件 相关 的 系统 调用 。 返 回 消息 包括 来 自 调 用 的 任何 数据 ， 
这 个 调用 是 由 DFS (分 布 式 文件 系统 ) 服务 程序 代表 客户 所 执行 的 。 例 如 ， 一 个 消息 可 能 包 
括 一 个 传输 整个 文件 到 客户 机 的 请 求 ， 或 仅 限 于 一 个 简单 的 块 请 求 。 对 于 后 者 ， 如 果 需 要 传 
输 整 个 文件 ， 可 能 需要 多 个 这 样 的 请 求 。 


3.6.3 管道 


管道 (pipe) 允许 两 个 进程 进行 通信 。 管 道 是 早期 UNIX 系统 最 早 使 用 的 一 种 IPC 机 制 。 
管道 为 进程 之 间 的 相互 通信 提供 了 一 种 较为 简单 的 方法 ， 尽 管 也 有 一 定 的 局 限 性 。 在 实现 管 
道 时 ， 应 该 考虑 以 下 四 个 问题 : 

o 管道 允许 单 向 通信 还 是 双向 通信 ? 

o 如 果 人 允许 双向 通信 ， 它 是 半 双 工 的 (数据 在 同一 时 间 内 只 能 按 一 个 方向 传输 ) 还 是 全 

双 工 的 〈 数 据 在 同一 时 间 内 可 在 两 个 方向 上 传输 ) ? 

o 通信 进程 之 间 是 否 应 有 一 定 的 关系 (如 父子 关系 ) ? 

e 管道 通信 和 能 否 通 过 网 络 ， 还 是 只 能 在 同一 台 机 器 上 进行 ? 
下 面 两 个 小 节 分 别 探讨 两 种 常见 类 型 的 用 于 UNIX 和 Windows 系统 的 管道 : 普通 管道 和 命 
名 管道 。 
3.6.3.1 普通 管道 

普通 管道 允许 两 个 进程 按 标准 的 生产 者 - 消费 者 方式 进行 通信 : 生产 者 向 管道 的 一 端 
( 写 入 端 ) 写 ， 消 费 者 从 管道 的 另 一 端 ( 读 出 端 ) 读 。 因 此 ， 普 通 管道 是 单 向 的 ， 只 允许 单 向 
通信 。 如 果 需 要 双向 通信 ， 那 么 就 要 采用 两 个 管道 ， 而 每 个 管道 向 不 同方 向 发 送 数据 。 下 面 
我 们 讨论 在 UNIX 和 Windows 系统 上 创建 普通 管道 。 在 这 两 个 程序 实例 中 ， 一 个 进程 向 管 
道中 写 人 消息 Greetings ， 而 另 一 个 进程 从 管道 中 读 取 此 消息 。 

在 UNIX 系统 上 ， 普 通 管道 的 创建 采用 函数 


pipe(int fd[]) 


这 个 函数 创建 一 个 管道 ， 以 便 通 过 文件 描述 符 int fal] 来 访问 : fd[0] 为 管道 的 读 出 端 ， 
而 fd[1] 为 管道 的 写 入 端 。UNIX 将 管道 作为 一 种 特殊 类 型 的 文件 。 因 此 ， 访 问 管道 可 以 采 
用 普通 的 系统 调用 read() 和 write), 

普通 管道 只 能 由 创建 进程 所 访问 。 通 常情 况 下 ， 父 进程 创建 一 个 管道 ， 并 使 用 它 来 与 其 
子 进 程 进行 通信 (该 子 进程 由 fork() 来 创建 )。 正 如 3.3.1 节 所 述 ， 子 进程 继承 了 父 进程 的 
打开 文件 。 由 于 管道 是 一 种 特殊 类 型 的 文件 ， 因 此 子 进程 也 继承 了 父 进程 的 管道 。 图 3-24 
说 明了 文件 描述 符 fd 与 父子 进程 之 间 的 关系 。 


子 进程 
fd(0) fa) fa(0) fd(1) 





图 3-24 普通 管道 的 文件 描述 符 


G3 th # 99 


在 图 3-25 所 示 的 UNIX 程序 中 ， 父 进程 创建 了 一 个 管道 ， 然 后 调用 forko 来 创建 子 
进程 。 调 用 fork() 之 后 的 行为 取决 于 数据 流 如 何 流 过 管道 。 对 于 这 个 实例 ， 父 进程 向 管道 
写 ， 而 子 进程 从 管道 读 。 重 要 的 是 要 注意 : 父 进 程 和 子 进程 开始 就 关闭 了 管道 的 未 使 用 端 。 
有 一 个 重要 的 步骤 是 确保 : 当 管 道 的 写 入 者 关闭 了 管道 写 人 端 时 ， 从 管道 读 取 的 进程 能 检测 
到 end-of-file (调用 read() 返回 0); 不 过 图 3-25 所 示 的 程序 没有 这 个 操作 。 



















#include <sys/types.h> 
#include <stdio.h> 
#include <string.h> 
#include <unistd.h> 


#define BUFFER_SIZE 25 
#define READ_END 0 
#define WRITE_END 1 


int main(void) 

{ 

char Write msg[BUFFER SIZE] = "Greetings"; 
char read_msg[BUFFER_SIZE] ; 

int fd[2] ; 

pidt pid; 





/* Program continues in 3.26 */ | 
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* create the pipe */ 

if (pipe(fd) == -1) { 
fprintf(stderr,"Pipe failed"); 
return 1; 





} 


/* fork a child process */ 
pid = fork(); 


if (pid < 0) { /* error occurred */ 
fprintf(stderr, "Fork Failed"); 
return 1; 


} 


if (pid > 0) { /* parent process */ 
/* close the unused end of the pipe */ 
close (fd [READ_END] ) ; 





/* write to the pipe */ 
write(fd[WRITE_END], write msg, strlen(write_msg)+1) ; 


/* close the read end of the pipe */ 
close (fd[WRITE_END] ) ; 


else { /* child process */ 
/* close the unused end of the pipe */ 
close (fd [WRITE_END] ) ; 


/* read from the pipe */ 
read(fd[READ_END], read msg, BUFFER_SIZE) ; 
printf ("read %s",read_msg) ; 


/* close the write end of the pipe */ 
close (fd[READ_END]) ; 


} 


return 0; 





图 3-26 续 图 3-25 
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对 于 Windows 系统 ， 普 通 管道 被 称 为 匿名 管道 (anonymous pipe)， 它 们 的 行为 类 似 于 
UNIX 的 管道 : 它们 是 单 向 的 ， 通信 进 程 之 间 具 有 父子 关系 。 

另外 ， 读 取 和 写 人 管道 可 以 采用 普通 函数 ReadFile() 和 WriteFile()。 用 于 创建 管道 
的 Windows API 是 CreatePipe() 函数 ， 它 有 四 个 参数 。 这 些 参 数 为 包括 : 读 取 管道 的 名 
ti; 写 入 管道 的 句柄 ; STARTUPINFO 结构 的 一 个 实例 ， 用 于 指定 子 进程 继承 管道 的 句柄 ; 
可 以 指定 管道 的 大 小 (以 字 节 为 单位 )。 

图 3-27 说 明了 一 个 父 进 程 创建 一 个 匿名 管道 ， 以 便 与 子 进程 通信 。 对 于 UNIX 系统 ， 
子 进程 自动 继承 由 父 进程 创建 的 管道 ， 对 于 Windows 系统 ， 程 序 员 需 要 指定 子 进程 继承 的 
属性 。 首 先 ， 初 始 化 结构 SECURITY _ATTRIBUTES， 以 便 允 许 句 柄 继承 ; 然后 ， 重 定向 子 
进程 的 句柄 ， 以 便 标准 输入 或 输出 为 管道 的 读 出 或 写 人 。 由 于 子 进 程 从 管道 上 读 ， 父 进程 应 
将 子 进 程 的 标准 输入 重 定向 为 管道 的 读 出 句柄 。 另 外 ， 由 于 管道 为 半 双 工 ， 需 要 禁止 子 进程 
继承 管道 的 写 人 端 。 创 建 子 进程 的 程序 类 似 于 图 3-11 所 示 的 程序 ， 这 里 第 五 个 参数 设置 为 
TRUE， 表 示 子 进程 会 从 父 进程 那里 继承 指定 的 句柄 。 父 进程 向 管道 写 人 时， 应 先 关闭 未 使 
用 的 管道 读 出 端 。 从 管道 读 的 子 进 程 如 图 3-29 所 示 。 从 管道 读 之 前 ， 这 个 程序 应 通过 调用 
GetStdHandle() ， 以 得 到 管道 的 读 句 柄 。 

请 注意 ， 对 于 UNIX 和 Windows 系统 ， 采 用 普通 管道 的 进程 通信 需要 有 父子 关系 。 这 
意味 着 ， 这 些 管道 只 可 用 于 同一 机 器 的 进程 间 通 信 。 
3.6.3.2 ”命名 管道 

普通 管道 提供 了 一 个 简单 机 制 ， 允 许 一 对 进程 通信 。 然 而 ， 只 有 当 进 程 相互 通信 时 ， 普 
通 管道 才 存在 。 对 于 UNIX 和 Windows 系统 ， 一 旦 进程 已 经 完成 通信 并 且 终 止 了 ， 那 么 普 
通 管 道 就 不 存在 了 。 

命名 管道 提供 了 一 个 更 强大 的 通信 工具 。 通 信 可 以 是 双向 的 ， 并 且 父 子 关系 不 是 必需 的 。 
当 建 立 了 一 个 命名 管道 后 ， 多 个 进程 都 可 用 它 通信 。 事 实 上 ， 在 一 个 典型 的 场景 中 ， 一 个 命名 
管道 有 几 个 写 者 。 此 外 ， 当 通信 进程 完成 后 ， 命 名 管道 继续 存在 。 虽 然 UNIX 和 Windows 系 
统 都 支持 命名 管道 ， 但 是 实现 细节 具有 很 大 不 同 。 下 一 步 ， 我 们 探索 这 些 系统 的 命名 管道 。 

对 于 UNIX， 命 名 管道 为 FIFO。 一 旦 创建 ， 它 们 表现 为 文件 系统 的 典型 文件 。 通 过 系统 
调用 mkfifo()， 可 以 创建 FIFO; 通过 系统 调用 open() 、read() write() 和 close()， 可 
以 操作 FIFO. FIFO 会 一 直 存 在 ， 直 到 它 被 显 式 地 从 文件 系统 中 删除 。 虽 然 FIFO 允许 双向 通 
信 ， 只 人 允许 半 双 工 传输 。 如 果 数 据 要 在 两 个 方向 上 传输 ， 那么 通常 使 用 两 个 FIFO。 此 外 ， 通 
信 进 程 应 位 于 同一 台 机 器 上 。 如 果 需 要 不 同系 统 之 间 的 通信 ， 那 么 应 使 用 套 接 字 ( 3.6.1 节 )。 





#include <stdio.h> 
#include <stdlib.h> 
#include <windows.h> 


#define BUFFER_SIZE 25 
int main(VOID) 


{ 

HANDLE ReadHandle, WriteHandle; 
STARTUPINFO si; 

PROCESS_INFORMATION pi; 

char message [BUFFER SIZE] = "Greetings"; 
DWORD written; 





/* Program continues in 3.28 */ 





图 3-27 Windows 匿名 管道 的 父 进程 


/* set up security attributes allowing pipes to be inherited */ 
SECURITY_ATTRIBUTES sa = {sizeof (SECURITY_ATTRIBUTES) , NULL, TRUE}; 
/* allocate memory */ 

ZeroMemory(&pi, sizeof (pi)); 


/* create the pipe */ 

if (!CreatePipe(&ReadHandle, &WriteHandle, usa, 0)) { 
fprintf(stderr, "Create Pipe Failed"); 
return 1; 


/* establish the STARTINFO structure for the child process */ 
GetStartupInfo(&si) ; 
si.hStdOutput = GetStdHandle(STDOUTPUT_HANDLE) ; 


/* redirect standard input to the read end of the pipe */ 
si.hStdInput = ReadHandle; 
si.dwFlags = STARTF_USESTDHANDLES; 


/* don’t allow the child to inherit the write end of pipe */ 
SetHandleInformation(WriteHandle, HANDLE-FLAG-INHERIT, 0); 


/* create the child process */ 
CreateProcess(NULL, "child.exe", NULL,NULL, 
TRUE, /* inherit handles */ 
0, NULL, NULL, &si, &pi); 


/* close the unused end of the pipe */ 
CloseHandle(ReadHandle) ; 


/* the parent writes to the pipe */ 
if (!WriteFile(WriteHandle, message, BUFFER SIZE ,&written,NULL)) 
fprintf(stderr, "Error writing to pipe."); 


/* close the write end of the pipe */ 
CloseHandle(WriteHand1le) ; 


/* wait for the child to exit */ 
WaitForSingleObject(pi.hProcess, INFINITE) ; 
CloseHandle(pi.hProcess) ; 
CloseHandle(pi.hThread) ; 

return 0; 





图 3-28 续 图 3-27 


#include <stdio.h> 


#include <windows.h> 





#define BUFFER_SIZE 25 
int main(VOID) 


HANDLE Readhandle; 
CHAR buffer [BUFFER SIZE] ; 
DWORD read; 


/* get the read handle of the pipe */ 
ReadHandle = GetStdHandle(STD_INPUT_HANDLE) ; 


/* the child reads from the pipe */ 

if (ReadFile(ReadHandle, buffer, BUFFERSIZE, &read, NULL)) 
printf ("child read %s",buffer) ; 

else 
fprintf(stderr, "Error reading from pipe"); 


return 0; 











图 3-29 Windows 匿名 管道 的 子 进程 
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与 UNIX 系统 相 比 ，Windows 系统 的 命名 管道 通信 机 制 更 加 丰富 。 人 允许 全 双 工 通信 ， 
并 且 通 信 进 程 可 以 位 于 同一 机 器 或 不 同 机 器 。 此 外 ，UNIX 的 FIFO 只 支持 字 节 流 的 数据 ; 
而 Windows 系统 允许 字 节 流 或 消息 流 的 数据 。 通 过 函数 CreateNamedPipe() ， 可 创建 命名 
管道 ; 通过 函数 ConnectNamedPipe() ， 客 户 可 连接 到 命名 管道 。 通 过 函数 ReadFile() 和 
WriteFile()， 可 进行 命名 管道 的 通信 。 


管道 使 用 

在 使 用 UNIX 命令 行 的 情况 下 ， 管 道 经 常用 于 将 一 个 命令 的 输出 作为 另 一 个 命令 的 
输入 。 例 如 ，UNIX 命令 1s 可 以 生成 一 个 目录 列表 。 对 于 特别 长 的 目录 列表 ， 输 出 可 以 
有 多 个 屏幕 的 长 度 。 命 令 more 管理 输出 ， 一 次 一 屏 地 显示 输出 ; 用 户 通过 按 动 空格 键 ， 
一 屏 一 屏 地 移动 。 在 命令 1s 和 命令 more zE (作为 两 个 独立 的 进程 运行 ) 设置 一 个 管 
道 ， 以 便 允 许 将 1s 的 输出 作为 more 的 输入 ， 从 而 用 户 就 能 一 次 一 屏 地 显示 一 个 长 的 目 
录 列 表 。 在 命令 行 上 ， 管 道 用 字符 “ | ”来 表示 。 完 整 命令 如 下 : 

ls | more 
在 这 种 情况 下 ， 命 令 1s 作为 生产 者 ， 而 命令 more 作为 消费 者 。 

Windows 为 DOS 外 壳 提 供 了 一 个 命令 more， 其 功能 与 UNIX 的 类 似 。DOS HH th 
采用 “| ”来 表示 管道 。 唯 一 不 同 的 是 ， 要 得 到 一 个 目录 列表 ，DOS 利用 命令 dir 而 不 
是 ls， 如 下 所 示 : 


dir | more 


3.7 小 结 


进程 是 执行 的 程序 。 随 着 进程 的 执行 ， 它 改变 状态 。 进 程 状态 是 由 进程 当前 活动 定义 
的 。 每 个 进程 可 以 处 于 如 下 状态 : 新 的 、 就 绪 、 运 行 、 等 待 或 终止 。 在 操作 系统 内 ， 每 个 进 
程 通过 它 的 进程 控制 块 (PCB) 来 表示 。 

进程 ， 当 不 执行 时 ， 位 于 某 个 等 待 队列 。 操 作 系统 有 两 种 主要 队列 : IO 请 求 队列 和 就 
绪 队 列 。 就 绪 队 列 包 括 所 有 准备 执行 并 等 待 CPU 的 进程 。 每 个 进程 都 用 PCB 来 表示 。 

操作 系统 应 从 各 个 调度 队列 中 选择 进程 。 长 期 调度 (用 于 作业 ) 选择 进程 以 便 竞 争 CPU. 
通常 ， 长 期 调度 充分 考虑 资源 分 配 ， 尤 其 内 存 管理 。 短 期 调度 从 就 绪 队 列 中 选择 进程 。 

操作 系统 必须 提供 一 种 机 制 ， 以 便 父 进程 创建 子 进程 。 父 进程 在 继续 之 前 可 以 等 待 其 
子 进程 终止 ， 也 可 以 与 子 进程 一 起 并 发 执行 。 允 许 并 发 执行 有 多 个 原因 : 信息 共享 、 计 算 加 
速 、 模 块 化 和 方便 。 

操作 系统 内 的 执行 进程 可 以 是 独立 的 ， 也 可 以 是 协作 的 。 协 作 进程 需要 进程 之 间 具 有 互 
相通 信 的 机 制 。 通 信 主 要 有 两 种 形式 : 共享 内 存 和 消息 系统 。 共 享 内 存 方法 要 求 ， 通 信 进 程 共 
享 一 些 变量 。 进 程 通过 使 用 这 些 共享 变量 来 交换 信息 。 对 于 共享 内 存 系统 ， 提 供 通信 的 责任 主 
要 在 应 用 程序 员 上 ， 操 作 系统 只 需 提 供 共享 内 存 。 消 息 系统 方法 允许 进程 交换 信息 。 提 供 通信 
的 责任 可 能 在 于 操作 系统 本 身 。 这 两 种 方法 并 不 互相 排斥 ， 可 以 在 同一 操作 系统 内 同时 实现 。 

客户 机 - 服务 器 系统 的 通信 可 以 使 用 套 接 字 、 远 程 过 程 调用 (RPC) 或 管道 。 套 接 字 定 
义 为 通信 的 端点 。 一 对 应 用 程序 之 间 的 连接 由 一 对 套 接 字 组 成 ， 通 信 的 两 端 各 有 一 个 套 接 
Fo RPC 是 另 一 种 形式 的 分 布 式 通信 。 当 一 个 进程 (或 线程 ) 调用 一 个 远程 应 用 的 过 程 时 ， 
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就 有 了 RPC。 管 道 提供 了 一 个 相对 简单 的 进程 间 的 相互 通信 。 普 通 管道 允许 父 进程 和 子 进 
程 之 间 的 通信 ， 而 命名 管道 允许 不 相关 进程 之 间 的 通信 。 


习题 


3.1 论述 长 期 调度 、 中 期 调度 和 短期 调度 的 差异 。 

3.2 ”内 核 采取 一 些 动 作 以 便 在 两 个 进程 之 间 进 行 上 下 文 切换 ， 请 描述 一 下 。 

3.3 ”构建 一 个 类 似 于 图 3-8 的 进程 树 。 采 用 命令 ps -ael， 可 以 获取 UNIX 或 Linux 系统 的 进程 信息 。 
采用 命令 man ps， 可 以 获取 关于 命令 ps 的 更 多 信息 。Windows 系统 的 任务 管理 器 没有 提供 父 进 
ID, 但 是 进程 监控 工具 (来 自 technet.microsoft.com) 提供 了 一 种 进程 树 工 具 。 

3.4 针对 UNIX 和 Linux 系统 的 进程 init 在 进程 终止 方面 的 作用 ， 请 解释 一 下 。 

3.5 如 图 3-30 所 示 的 程序 创建 了 多 少 个 进程 (包括 初始 的 父 进程 ) ? 
















#include <stdio.h> 
#include <unistd.h> 


int main() 
int i; 


for (i = 0; i < 4; i++) 
fork(); 


return 0; 





K 3-30 ”创建 了 多 少 进程 
3.6 ”对 图 3-31 所 示 的 标记 为 printf ("LINE J") 的 行 所 能 执行 的 环境 ， 请 解释 一 下 。 


#include <sys/types.h> 
#include <stdio.h> 
#include <unistd.h> 


int main() 





{ 
pid_t pid; 


/* fork a child process */ 
pid = fork(); 


if (pid < 0) { /* error occurred */ 
fprintf(stderr, "Fork Failed"); 
return 1; 


} 

else if (pid == 0) { /* child process */ 
execlp("/bin/1s","1s",NULL) ; 
printf("LINE J"); 


else { /* parent process */ 
/* parent will wait for the child to complete */ 
wait (NULL) ; 
printf ("Child Complete"); 


return 0; 





图 3-31 何 时 到 达 第 J 行 


3.7 采用 图 3-32 所 示 的 程序 ， 确 定 行 4、B、C、D 中 的 pid 的 值 。( 假 定 父 进程 和 子 进程 的 pid 分 别 为 
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#include <sys/types.h> 
#include <stdio.h> 
#include <unistd.h> 


int main() 


pidt pid, pidi; 


/* fork a child process */ 
pid = fork(); 


if (pid < 0) { /* error occurred */ 
fprintf(stderr, "Fork Failed"); 
return 1; 


else if (pid == 0) { /* child process */ 
pidi = getpid(); 
printf("child: pid = %d",pid); /* A */ 
printf("child: pidi = %4d",pidi); /* B */ 


else { /* parent process */ 
pidi = getpid(); 
printf("parent: pid = %4d",pid); /* C */ 
printf("parent: pidi = %d",pidi); /* D */ 
wait (NULL) ; 

} 


return 0; 





图 3-32 pid 值 是 什么 
3.8 ”普通 管道 有 时 比 命名 管道 更 适合 ， 而 命名 管道 有 时 比 普通 管道 更 适合 。 请 举例 说 明 。 
3.9 对 于 RPC 机 制 ， 若 没有 强制 “最 多 一 次 ”或 “正好 一 次 ”的 语义 ,描述 一 下 所 带 来 的 一 些 不 必 
要 的 后 果 。 讨 论 一 下 没有 这 些 强制 保证 的 可 能 用 途 。 
3.10 使 用 如 图 3-33 所 示 的 程序 ， 请 解释 一 下 行 X 和 Y 的 输出 是 什么 。 


#include <sys/types.h> 
#include <stdio.h> 
#include <unistd.h> 


#define SIZE 5 
int nums [SIZE] = {0,1,2,3,4}; 


int main() 


{ 
int i; 
pid.t pid; 


pid = fork(); 


if (pid == 0) { 
for (i = 0; i < SIZE; i++) { 
nums [i] *= -i; 
printf("CHILD: %d ",nums[i]); /* LINE X */ 


else if (pid > 0) { 
wait (NULL) ; 
for (i = 0; i < SIZE; i++) 
printf ("PARENT: %d ",nums[i]); /* LINE Y */ 


return 0; 





图 3-33 第 X 和 YY 行 的 输出 是 什么 
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下 面 设计 的 优 缺点 是 什么 ?系统 层次 和 用 户 层次 都 要 考虑 。 
a. 同步 和 异步 通信 

b. 自动 和 显 式 缓冲 

c. 复制 传送 和 引用 传送 

d. 固定 大 小 和 可 变 大 小 消息 


编程 题 


3.12 


3.13 


使 用 UNIX 或 Linux 系统 ， 编 写 一 个 C 程序 ， 以 便 创 建 一 个 子 进程 并 最 终 成 为 一 个 僵尸 进程 。 
这 个 僵尸 进程 在 系统 中 应 保持 至 少 10 秒 。 进 程 状 态 可 以 从 下 面 的 命令 中 获得 

ps -1 
进程 状态 位 于 列 8; 状态 为 2 的 进程 为 僵尸 。 子 进程 的 进程 标识 符 (pid) 位 于 列 PID; 而 父 进程 
的 则 位 于 列 PPID。 
为 了 确定 子 进 程 确实 是 一 个 僵尸 ， 或 许 最 简单 的 方法 是 : 运行 所 写 的 程序 于 后 台 (使 用 &)， 然 
后 运行 命令 ps -1 以 便 确 定子 进程 是 否 是 一 个 僵尸 进程 。 因 为 系统 不 想 要 过 多 的 僵尸 进程 存在 ， 
所 以 你 需要 删除 所 生成 的 。 最 简单 的 做 法 是 通过 命令 kill 来 终止 父 进程 。 例 如 ， 如 果 父 进程 的 
pid 是 4884， 那 么 可 输入 


kill -9 4884 

操作 系统 的 pid 管理 器 (pid manager) 负责 管理 进程 标识 符 。 当 创建 一 个 进程 时 , pid 管理 器 会 
给 它 分 配 一 个 唯一 pid。 当 进程 执行 完 时 ， 它 的 pid 会 还 给 pid 管理 器 ， 以 便 以 后 再 分 配给 别 的 
进程 。 有关 进程 标识 符 的 更 多 讨论 ， 参 见 3.3.1 节 。 这 里 最 重要 的 是 要 认识 到 进程 标识 符 应 是 唯 
一 的 ; 没有 两 个 活动 进程 可 以 有 相同 的 pid。 

通过 以 下 常量 ,可 以 界定 pid 的 可 能 取 值 范围 : 


#define MIN_PID 300 
#define MAX PID 5000 


你 可 以 选择 任何 数据 结构 来 表示 可 用 的 进程 标识 符 。 一 个 策略 是 采用 Linux 所 选 的 位 图 : 当 位 
置 i 的 值 为 0 时 ， 表示 值 为 i 的 pid 可 用 ; 当 位 置 i 的 值 为 1 时 ， 表示 值 为 i 的 pid 已 在 使 用 。 
实现 以 下 API， 它 们 用 于 获取 和 释放 pid: 
e int allocate_map(void) : 创建 并 初始 化 一 个 用 于 表示 pid 的 数据 结构 。 如 果 不 成 功 ， 则 
返回 -1; 如 果 成 功 ， 则 返回 1。 
e int allocate_pid(void) : 分 配 并 返回 一 个 pid。 如 果 无 法 分 配 一 个 pid (所 有 pid 都 在 使 
用 )， 则 返回 -1。 
è void release_pid(int pid): 释放 一 个 pid。 
这 个 编程 习题 将 在 后 面 的 第 4 章 和 第 6 章 中 加 以 修改 。 
Collatz 猜想 问题 ， 当 n 为 正 整 数 ， 并 采用 以 下 算法 : 
T 1 为 偶数 
3xn+ ， nn 为 奇数 
结果 会 是 什么 。 猜 想 指 出 ， 当 该 算法 被 不 断 应 用 ， 所 有 的 正 整 数 最 终 将 为 1。 例 如， 如 果 n = 
35， 那 么 序列 为 


35, 106, 53, 160, 80, 40, 20, 10, 5, 16, 8, 4, 2, 1 
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采用 系统 调用 fork() ， 编 写 一 个 C 程序 以 便 在 子 进程 中 生成 这 个 序列 。 从 命令 行 ， 提 供 启动 
数 。 例 如 ， 如 果 8 作为 一 个 参数 通过 命令 行 来 传递 ， 则 子 进程 将 输出 8、4、2、1。 因 为 父 进程 
和 子 进程 都 有 各 自 的 数据 副本 ， 所 以 要 让 子 进程 输出 序列 。 父 进程 调用 wait() ， 以 便 在 退出 之 
前 确保 子 进程 已 完成 。 执 行 必 要 的 错误 检查 以 便 确保 : 一 个 正 整数 由 命令 行 来 传递 。 

在 习题 3.14 中 ， 子 进程 应 输出 由 Collatz 猜想 算法 所 生成 的 序列 号 ， 因 为 父 进程 和 子 进程 有 各 
自 的 数据 副本 。 设 计 该 程序 的 另 一 种 方法 是 ， 在 父 进 程 和 子 进程 之 间 建 立 一 个 共享 内 存 对 象 。 
这 种 技术 允许 子 进程 将 序列 内 容 写 到 共享 内 存 对 象 。 当 子 进程 完成 时 ， 父 进程 就 可 输出 序列 。 
由 于 内 存 是 共享 的 ， 子 进程 所 做 的 任何 修改 都 会 反映 到 父 进 程 。 

这 个 程序 可 采用 如 3.5.1 节 所 述 的 POSIX 共享 内 存 。 父 进程 包括 如 下 步骤 : 

a. 建立 共享 内 存 对 象 (shm_open()、ftruncate() 和 mmap() )。 

b. 创建 子 进程 并 等 待 它 的 终止 。 

c. 输出 共享 内 存 的 内 容 。 

d. 删除 共享 内 存 对 象 。 

协作 进程 的 一 个 重要 领域 涉及 同步 问题 。 在 这 个 练习 中 ， 父 进程 和 子 进程 应 要 协调 好 ， 以 便 在 
子 进程 完成 执行 前 ， 父 进程 不 输出 序列 。 这 两 个 进程 的 同步 使 用 系统 调用 wait () : 父 进程 调用 
wait() 以 便 阻 塞 自己 ， 直 到 子 进程 退出 。 

3.6.1 节 说 明了 小 于 1024 的 端口 为 著名 的 ， 即 用 于 提供 标准 服务 。 端 口 17 为 quote-of-the-day 
(当日 名 句 ) 服务 。 当 客户 连接 到 服务 器 的 端口 17 时 ， 服 务 器 会 返回 当天 的 名 句 。 

修改 图 3-21 所 示 的 日 期 服务 器 ， 以 便 它 返回 当天 的 名 名 而 不 是 日 期 。 名 句 应 为 可 打印 的 ASCI 字 
I, 长度 应 小 于 512 字 节 ， 但 支持 多 行 。 端 口 17 为 著名 的 ， 因 此 不 可 用 ， 所 以 可 让 服务 器 监听 端 
口 6017。 图 3-22 所 示 的 日 期 客户 可 用 于 读 取 服 务 器 返回 的 名 句 。 

haiku 为 三 行 诗 (其 中 第 一 、 二 、 三 行 分别 有 5、7、5 个 音节 )。 写 一 个 监听 端口 5575 的 haiku 
服务 器 ， 当 客户 连接 到 这 个 端口 时 ， 服 务 器 返回 一 个 haiku。 如 图 3-22 所 示 的 日 期 客户 可 以 用 
于 读 取 由 haiku 服务 器 返回 的 诗句 。 

回 显 服务 器 返回 从 客户 收 到 的 内 容 。 例 如 ， 如 果 客 户 将 字符 串 "Hello there!" 发 送 给 服务 器 ， 
而 服务 器 则 返回 "Hello there!". 

利用 3.6.1 所 描述 的 Java 网 络 API， 写 一 个 回 显 服务 器 。 该 服务 器 将 使 用 accept () 方法 等 待 客 
户 端 连接 。 当 收 到 客户 端 连接 后 ， 服 务 器 会 循环 执行 下 列 步 又 ; 

© 从 端口 读 入 数据 到 缓冲 区 。 

e 写 出 缓冲 内 容 到 客户 。 

服务 器 只 有 判定 客户 已 关闭 连接 之 后 ， 才 会 退出 循环 。 

图 3-21 所 示 的 日 期 服务 器 ， 采 用 类 java.io.BufferedReader。BufferedReader 扩展 了 用 于 
读 取 字 符 流 的 类 java.io.Reader。 不 过 ， 回 显 服务 器 不 能 保证 ， 它 从 客户 收 到 的 只 是 字符 型 
数据 而 非 二 进 制 数据 。 类 java.io. Inputstream 处 理 字 节 数 据 而 非 字 符 数 据 。 因 此 ， 回 显 服务 
器 必须 使 用 一 个 java.io.Inputstream 的 对 象 。 当 客户 关闭 了 套 接 字 连 接 的 端口 后 ， 类 java. 
io.Inputstream 的 方法 read() 会 返回 -1。 

设计 一 个 程序 : 通过 普通 管道 ， 让 一 个 进程 发 送 一 个 字符 串 消息 到 第 二 个 进程 ， 而 第 二 个 进 
程 改变 收 到 字符 串 的 大 小 写 ， 然 后 发 送 到 第 一 个 进程 。 例 如 ， 如 果 第 一 个 进程 发 送 消息 "Hi 
There"， 那 么 第 二 个 进程 会 返回 "hI tHERE"。 这 将 需要 使 用 两 个 管道 ， 一 个 用 于 发 送 原始 消 
息 从 第 一 个 进程 到 第 二 个 进程 ， 另 一 个 用 于 发 送 修改 后 的 消息 从 第 二 个 进程 到 第 一 个 进程 。 你 
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可 以 利用 UNIX 或 Windows 管道 来 写 这 个 程序 。 

利用 普通 管道 设计 一 个 文件 复制 程序 filecopy。 此 程序 有 两 个 参数 : 原文 件 名 称 和 新 文件 名 
称 。 该 程序 将 创建 一 个 普通 管道 ， 并 将 要 复制 的 文件 内 容 写 人 管道 。 子 进程 将 从 管道 中 读 取 该 

文件 ， 并 将 它 写 人 目标 文件 。 例 如 ， 如 果 我 们 按 如 下 调用 该 程序 : 


filecopy input.txt copy.txt 


那么 文件 input.txt 将 被 写 人 管道 。 子 进程 将 读 取 这 个 文件 的 内 容 ， 然 后 写 人 目标 文件 copy. 
txt。 你 可 以 利用 UNIX 或 Windows 管道 来 写 这 个 程序 。 


编程 项 目 
TA 1: UNIX 外 这 和 历史 特征 


这 个 项 目 设计 一 个 C 程序 。 这 是 一 个 外 壳 接 口 ， 可 以 接受 用 户 命令 ， 然 后 可 以 在 一 个 单独 进程 中 


执行 用 户 命令 。 这 个 项 目 可 以 在 任何 Linux、UNIX 和 Mac OS X 系统 上 完成 。 


外 这 接口 为 用 户 提供 提示 符 ， 以 便 输入 下 一 个 命令 。 下 面 的 例子 说 明了 提示 符 osh> 和 用 户 的 下 


一 个 命令 ; cat prog.c。( 这 个 命令 采用 UNIX 的 cat 在 终端 上 显示 文件 prog.co。) 


osh> cat prog.c 


实现 外 壳 接 口 的 一 种 技术 是 : 父 进程 首先 读 取 用 户 命令 行 的 输入 ( 即 cat Prog.c)， 然 后 创建 一 


个 单独 子 进程 来 完成 这 个 命令 。 除 非 另 作 说 明 ， 父 进程 在 继续 之 前 等 待 子 进程 退出 。 这 种 功能 有 点 类 
似 于 图 3-10 所 示 的 进程 创建 。 然 而 ，UNIX 外 壳 一 般 也 人 允许 子 进 程 在 后 台 或 并 发 运行 。 为 了 实现 这 个 ， 
通过 在 命令 的 最 后 ， 使 用 “&” 符 号 。 因 此 ， 如 果 我 们 重 写 上 面 的 命令 为 


osh> cat prog.c & 


那么 父 进程 和 子 进程 就 可 以 并 发 执行 了 。 


通过 系统 调用 fork() ， 创 建 单独 的 子 进程 。 通 过 系统 调用 exec() 系列 中 的 某 个 ， 执 行 用 户 命令 


(如 3.3.1 WENE). 


图 3-34 为 提供 命令 行 外 壳 的 一 般 操作 的 CREPE HERE. pM main() 提供 提示 符 osh->， 并 概述 了 


从 读 取 用 户 输入 后 采取 的 步骤 。 这 个 main) 函数 不 断 循 环 ， 只 要 should_run 等 于 1 ; 当 用 户 在 提示 
符 后 输入 exit 时 ， 程 序 将 should_run 设置 为 0 并 且 终止 。 


该 项 目 分 为 两 个 部 分 : 创建 子 进程 并 且 在 子 进 程 中 执行 命令 和 修改 外 壳 以 便 支 持 历史 特征 。 154 


第 一 部 分 : 创建 子 进程 


第 一 个 任务 是 修改 图 3-34 的 函数 main() ， 以 便 分 叉 一 个 子 进 程 并 执行 用 户 指定 命令 。 这 要 求 词 


法 分 析 ， 以 便 分 解 用 户 输入 为 多 个 标记 ， 并 将 这 些 标记 存 到 字符 串 数组 (图 3-34 中 的 args). Mlin, 
如 果 用 户 在 提示 符 osh> 后 输入 命令 ps -ael， 则 数组 args 存储 的 值 为 : 


args[0] = "ps" 
args[1] = "-ael" 
args[2] = NULL 


这 个 数组 args 会 被 传递 到 函数 execvp() ， 其 原型 如 下 : 


execvp(char *command, char *params[]); 


在 这 里 ，command 为 要 执行 的 命令 ，params HipSBM, WRIA, MW execvp() 的 调用 


为 execvp(args[0] args), 一 定 要 检查 用 户 输入 是 否 包括 一 个 &， 以 便 确定 父 进 程 是 否 等 待 子 进程 
退出 。 155 
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#include <stdio.h> 
#include <unistd.h> 


#define MAX_LINE 80 /* The maximum length command */ 


int main(void) 


{ 
char *args [MAX LINE/2 + 1]; /* command line arguments */ 
int should run = 1; /* flag to determine when to exit program */ 


while (should run) { 
printf ("osh>") ; 
fflush(stdout); 


/** 
* After reading user input, the steps are: 
* (1) fork a child process using fork() 
* (2) the child process will invoke execvp() 
* (3) if command included &, parent will invoke wait() 
*/ 
} 


return 0; 





图 3-34 简单 外 壳 的 轮廓 


第 二 部 分 : 创建 历史 功能 
下 一 个 任务 是 修改 外 壳 接口 程序 ， 提 供 历史 (history) 特征 ， 人 允许 用 户 访问 最 近 输 入 的 命令 。 通 
过 使 用 这 个 功能 ， 用 户 能 够 访问 多 达 10 个 的 命令 。 这 些 命令 将 从 1 开始 连续 编号 ， 并 将 继续 增长 进而 
超过 10。 例 如 ， 如 果 用 户 输 入 了 35 个 命令 ,那么 10 个 最 新 的 命令 应 为 命令 26 ~ 35. 
通过 在 提供 符 osh> 后 输入 如 下 命令 ， 用 户 能 够 列 出 命令 历史 : 


history 


例如 ， 假 设 历史 命令 有 如 下 组 成 (从 最 近 开 始 ) 
ps, ls -1, top, cal, who, date 


命令 history 将 会 输出 : 


6 ps 
5 ls -1 
4 top 
3 cal 
2 who 
1 date 


这 个 程序 应 该 支持 两 种 方法 ， 以 便 从 命令 历史 中 检索 命令 : 

e. 当 用 户 输入 ! 时 ,将 会 执行 最 近 的 历史 命令 。 

e 当 用 户 输入 ! 和 一 个 整数 入 后 ， 将 执行 第 入 个 历史 命令 。 

继续 上 面 的 例子 ， 如 果 用 户 输入 !!， 会 执行 命令 ps ; MRAP MA !3， 会 执行 命令 cal, 
按 这 种 方式 执行 的 任何 命令 也 应 回 显 在 用 户 屏幕 上 。 读 命令 也 应 作为 下 个 命令 放 在 历史 缓冲 
区 中 。 

该 程序 还 应 进行 基本 的 错误 处 理 。 如 果 没 有 历史 命令 ,输入 !! 应 当 产 生 消 息 "No commands 
in history." (没有 历史 命令 )。 如 果 没 有 历史 命令 对 应 于 ! 后 面 的 整数 ， 该 程序 应 输出 "No such 
command in history." (没有 这 样 的 历史 命令 )。 
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MA 2: 用 于 生成 任务 列表 的 Linux ABBR 


在 这 个 项 目 中 ， 你 将 编写 一 个 内 核 模块 ， 以 便 列 出 Linux 系统 内 的 所 有 当前 任务 。 在 开始 这 个 项 
目前 ， 请 务必 复习 一 下 第 2 章 有 关 创 建 内核 模 块 的 编程 项 目 。 这 个 项 目的 完成 可 以 利用 与 本 书 配套 的 
Linux 虚拟 机 。 

第 一 部 分 : 任务 的 线性 迭代 

如 3.1 WATE, Linux 内 的 PCB 表示 采用 结构 task_struct， 它 位 于 头 文件 <linux/sched.h>。 

在 Linux 中 ， 宏 for_each_process() 可 以 迭代 系统 内 的 所 有 当前 任务 


#include <linux/sched.h> 
struct task struct *task; 


for_each_process(task) { 
/* on each iteration task points to the next task */ 


} 
程序 通过 宏 for_each_process() 循环 ， 可 以 显示 task_struct 的 各 个 字段 。 
第 一 部 分 的 作业 

设计 一 个 内 核 模块 ， 通 过 宏 for_each_process() ， 和 迭代 系统 内 的 所 有 任务 。 特 别 是 ， 针 对 每 个 
任务 ,输出 任务 名 称 ( 称 为 可 执行 的 名 称 )、 状 态 及 进程 标识 符 。( 通 过 查看 <linux/sched.h> 中 的 结 
构 task_struct， 可 以 获得 这 些 域 的 名 称 。) 编写 模块 和 人口 点 的 代码 ， 以 便 它 的 内 容 出 现在 内 核 日 志 绥 
冲 区 ， 这 可 通过 命令 dmesg 查看 。 为 验证 代码 是 否 工 作 正 确 ， 比 较 内 核 日 志 缓冲 区 的 内 容 与 以 下 命令 
的 输出 ， 它 列 出 了 系统 内 的 所 有 任务 : 

ps -el 

这 两 个 应 该 是 非常 相似 的 。 因 为 任务 是 动态 的 ， 所 以 有 可 能 有 些 任 务 会 出 现在 一 个 列表 中 ， 而 不 
在 另 一 个 中 。 
第 二 部 分 : 采用 深度 优先 搜索 树 的 任务 迭代 

本 项 目的 第 二 部 分 采用 深度 优先 搜索 (DFS) 树 ， 和 迭代 系统 内 的 所 有 任务 。( 例 如 : 图 3-8 所 示 进 
程 的 DFS 迭代 为 : 1 8415, 8416, 9298, 9204, 2, 6, 200, 3028, 3610, 4005。) 

Linux 通过 一 系列 链表 来 维护 进程 树 。 查 看 <linux/sched.h> 中 的 结构 task_struct， 我 们 看 到 
两 个 对 象 struct list_head: 


children 和 sibling 


这 两 个 对 象 为 子 进 程 以 及 兄弟 进程 的 链表 指针 。Linux 还 维护 任务 in 让 的 引用 (struct task_ 
struct init_task)。 利 用 这 个 信息 以 及 有 关 链 表 的 宏 ， 我们 可 按 如 下 方式 来 迭代 init 的 子 进程 。 


struct task struct *task; 
struct list head *list; 


list_for_each(list, &init_task->children) { 
task = list_entry(list, struct task struct, sibling); 
/* task points to the next child in the list */ 


Z list for each() 有 两 个 参数 ， 都 属于 类 型 struct list_head; 
。 需要 遍历 列表 的 头 的 指针 
。 需要 遍历 列表 的 头 节点 的 指针 
每 次 迭代 1ist_for_each() 时 ， 第 一 个 参数 设置 为 列表 下 一 个 孩子 的 结构 list。 通 过 宏 list_ 
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entry() ， 我 们 利用 这 个 值 可 以 得 到 列表 的 每 个 结构 。 
第 二 部 分 的 作业 

设计 一 个 内 核 模 块 ， 采 用 DFS 树 ， 从 任务 init 开始 遍历 系统 内 所 有 任务 。 就 像 本 项 目的 第 一 
部 分 ， 输 出 每 个 任务 的 名 称 、 状 态 和 pid。 在 内 核 模块 入 口中 执行 这 个 迭代 ,使 其 输出 到 内 核 日 志 缓 
冲 区 。 

这 样 输出 的 所 有 系统 内 的 任务 比 用 命令 ps -ael 得 到 的 任务 可 能 会 更 多 。 这 是 因为 有 些 线程 虽 作 
为 孩子 ， 但 却 不 表现 为 普通 进程 。 因 此 ， 为 了 检查 DES 树 的 输出 ， 可 以 使 用 命令 


ps -eLf 


这 个 命令 列 出 系统 内 的 所 有 任务 ， 包 括 线程 。 为 了 验证 确实 已 经 进行 了 适当 的 DFS 迭代 ， 你 应 检查 由 
命令 ps 输出 的 各 种 任务 之 间 的 关系 。 


推荐 读物 

UNIX 与 Windows 系统 内 的 进程 创建 、 管 理 和 IPC 可 分 别 参见 Robbins 和 Robbins (2003) 以 及 
Russinovich 和 Solomon ( 2009 )。Love (2010) 讨论 了 Linux 内 核 的 进程 支持 ， 而 Hart ( 2005 ) 详细 
讨论 了 Windows 系统 编程 。Google Chrome 所 采用 的 多 进程 模型 的 讨论 可 参见 http://blog.chromium. 
org/2008/09/multiprocess-architecture.html。 

Holland 和 Seltzer (2011) 讨论 了 多 核 系统 的 消息 传递 。Baumann 等 ( 2009 ) 描述 了 共享 内 存 与 
消息 传递 的 性 能 问题 。Vahalia ( 1996 ) 描述 了 Mach 系统 的 进程 间 通信 。 

Birrell 和 Nelson ( 1984 ) 讨论 了 RPC 的 实现 。Staunstrup (1982) 比较 了 程序 调用 与 消息 传递 通信 。 
Harold ( 2005 ) 讨论 了 Java 的 套 接 字 编程 。 

Hart ( 2005 ) 以 及 Robbins 和 Robbins ( 2003 ) 分 别 讨论 了 Windows 和 UNIX 系统 的 管道 。 
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多 线程 编程 


第 3 章 讨论 的 进程 模型 假设 每 个 进程 是 具有 单个 控制 线程 的 一 个 执行 程序 。 不 过 ， 几 乎 
所 有 现代 操作 系统 都 允许 一 个 进程 包含 多 个 线程 。 本 章 引 入 多 线程 计算 机 系统 有 关 的 许多 概 
念 ， 并 且 讨论 Pthreads Windows 和 Java 线程 库 的 API。 我 们 分 析 与 多 线程 编程 相关 的 许多 
事项 及 其 对 操作 系统 设计 的 影响 。 最 后 ， 我 们 探讨 Windows 和 Linux 操作 系统 如 何 支 持 内 
核 级 的 线程 。 

本 章 目标 

e 引入 线程 概念 ， 即 CPU 使 用 的 基本 单元 ， 它 构成 多 线程 计算 机 系统 的 基础 。 

e 讨论 Pthreads 、Windows 和 Java 线程 库 的 API. 

o 探讨 多 种 策略 以 便 提供 隐 式 线程 。 

© 讨论 多 线程 编程 相关 的 问题 。 

e 讨论 Windows fil Linux 操作 系统 的 线程 支持 。 


4.1 概述 


每 个 线程 是 CPU 使 用 的 一 个 基本 单元 ; 它 包 括 线 程 ID 、 程 序 计数 器 、 寄 存 器 组 和 堆 
栈 。 它 与 同一 进程 的 其 他 线程 共享 代码 段 、 数 据 段 和 其 他 操作 系统 资源 ， 如 打开 文件 和 信 
号 。 每 个 传统 或 重量 级 (heavyweight) 进程 只 有 单个 控制 线程 。 如 果 一 个 进程 具有 多 个 控制 
线程 ， 那么 它 能 同时 执行 多 个 任务 。 图 4-1 说 明了 传统 单线 程 ( single-threaded) 进程 和 多 线 
程 (multithreaded) 进程 的 差异 。 


a 
Ez] 


Ez 





多 线程 进程 
图 4-1 单线 程 进程 和 多 线程 进程 
4.1.1 动机 


现代 计算 机 运行 的 大 多 数 应 用 软件 都 是 多 线程 的 。 一 个 应 用 程序 通常 作为 具有 多 个 控制 
线程 的 一 个 进程 来 实现 。 例 如 ， 一 个 Web 浏览 器 可 能 有 一 个 线程 来 显示 图 像 和 文本 ， 另 一 
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个 线程 从 网 络 接收 数据 。 一 个 字 处 理 器 可 能 有 一 个 线程 用 于 显示 图 形 ， 另 一 个 线程 用 于 响应 
用 户 的 键盘 输入 ， 还 有 一 个 线程 在 后 台 进 行 拼写 和 语法 检查 。 应 用 程序 也 可 以 设计 成 利用 多 
核 系统 的 处 理 能 力 。 这 些 应 用 程序 可 以 在 多 处 理 核 上 并 行 执行 多 个 CPU 密集 型 的 任务 。 

在 有 些 情 况 下 ， 单 个 应 用 程序 可 能 需要 执行 多 个 类 似 任 务 。 例 如 ， 一 个 Web 服务 器 接 
收 有 关 网 页 、 图 像 、 声 音 等 的 客户 请 求 。 一 个 繁忙 Web 服务 器 可 能 有 多 个 (可 能 数 千 个 ) 客 
户 并 发 访问 它 。 如 果 一 个 Web 服务 器 作为 单个 线程 的 传统 进程 来 执行 ， 那么 只 能 一 次 处 理 
一 个 请 求 ; 这 样 ， 客 户 可 能 需要 等 待 很 长 时 间 ， 以 便 请 求 得 到 处 理 。 

一 种 解决 方法 是 让 服务 器 作为 单个 进程 运行 以 便 接收 请 求 。 当 服务 器 收 到 请 求 时 ， 它 会 
创建 男 一 个 进程 以 便 处 理 请 求 。 事实 上 ， 这 种 进程 创建 方法 在 线程 流行 之 前 很 常见 。 不 过 ， 
进程 创建 很 耗 时 间 和 资源 。 如 果 新 进程 与 原 进程 执行 同样 的 任务 ,那么 为 什么 要 承担 所 有 这 
些 开销 ? 通常 ， 使 用 一 个 包含 多 个 线程 的 进程 更 加 有 效 。 如 果 Web 服务 器 进程 是 多 线程 的 ， 
那么 这 种 服务 器 可 以 创建 一 个 单独 线程 ， 以 便 监听 客户 请 求 。 当 有 请 求 时 ， 服 务 器 不 是 创建 
进程 而 是 创建 线程 以 处 理 请 求 ， 并 恢复 监听 其 他 请 求 ， 见 图 4-2。 


(2) 创建 新 线程 


(1) 请 求 以 处 理 请 求 ages 








(3 ) 重新 侦 听 额 外 客户 机 的 请 求 
图 4-2 多 线程 的 服务 器 架构 


线程 在 远程 过 程 调 用 ( RPC) 系统 中 ， 也 起 着 至 关 重要 的 作用 。 回 想 第 3 章 ，RPC 通过 
提供 一 种 类 似 于 普通 函数 或 子 程序 调用 的 通信 机 制 ， 以 允许 进程 间 通 信 。 通 常 ，RPC 服务 器 
是 多 线程 的 。 当 一 个 服务 器 收 到 消息 时 ， 它 使 用 一 个 单独 线程 来 处 理 消息 。 这 人 允许 服务 器 处 
理 多 个 并 发 请 求 。 

最 后 ， 大 多 数 的 操作 系统 内 核 现在 都 是 多 线程 的 。 多 个 线程 在 内 核 中 运行 ， 每 个 线程 执 
行 一 个 特定 任务 ， 如 管理 设备 、 管 理 内 存 或 处 理 中 断 。 例 如 ，Solaris 有 一 组 内 核 线程 以 处 理 
中 断 ，Linux 采用 一 个 内 核 线程 以 便 管理 系统 空闲 内 存 的 数量 。 


4.1.2 RA 


多 线程 编程 具有 如 下 四 大 类 的 优点 : 

响应 性 : 如 果 一 个 交互 程序 采用 多 线程 ， 那 么 即使 部 分 阻塞 或 者 执行 元 长 操作 ， 它 仍 
可 以 继续 执行 ， 从 而 增加 对 用 户 的 响应 程度 。 这 对 于 用 户 界 面 设 计 尤 其 有 用 。 例 如 ， 
当 用 户 点 击 一 个 按钮 以 便 执行 一 个 耗 时 操作 时 ， 想 一 想 会 发 生 什么 事 。 一 个 单线 程 
应 用 程序 对 用 户 反 应 会 迟钝 ， 直 到 该 操作 完成 。 与 之 相反 ， 如 果 耗 时 操作 在 一 个 单 
独 线程 内 执行 ,那么 应 用 程序 仍 可 响应 用 户 。 

资源 共享 : 进程 只 能 通过 如 共享 内 存 和 消息 传递 之 类 的 技术 共享 资源 。 这 些 技 术 应 
由 程序 员 显 式 地 安排 。 不 过 ， 线 程 默认 共享 它们 所 属 进程 的 内 存 和 资源 。 代 码 和 数 
据 共享 的 优点 是 : 它 允 许 一 个 应 用 程序 在 同一 地 址 空间 内 有 多 个 不 同 活 动 线程 。 

经 济 : 进程 创建 所 需 的 内 存 和 资源 分 配 非常 昂贵 。 由 于 线程 能 够 共享 它们 所 属 进 程 
的 资源 ， 所 以 创建 和 切换 线程 更 加 经 济 。 虽 然 进程 创建 和 管理 与 线程 创建 和 管理 的 


163 


FORD 进程 管理 


开销 差异 的 实际 测量 较为 困难 ， 但 是 前 者 通常 要 比 后 者 花费 更 多 时 间 。 例 如 ， 对 于 
Solaris， 进 程 创建 要 比 线程 创建 慢 30 倍 ， 而 且 进 程 切换 要 比 线程 切换 慢 5 倍 。 

o 可 伸缩 性 : 对 于 多 处 理 器 体系 结构 ， 多 线程 的 优点 更 大 ， 因 为 线程 可 在 多 处 理 核 上 并 
行 运行 。 不 管 有 多 少 可 用 CPU， 单 线程 进程 只 能 运行 在 一 个 CPU 上 。 在 下 一 节 , 我 
们 深入 探讨 这 个 问题 。 


4.2 多核 编程 


在 计算 机 设计 早期 ， 为 了 响应 更 多 计算 性 能 的 需要 ， 单 处 理 器 系统 发 展 成 为 多 处 理 
器 系统 。 更 现代 的 、 类 似 的 系统 设计 趋势 是 将 多 个 计算 核 放 到 单个 芯片 。 无 论 多 个 计算 核 
是 在 多 个 CPU 芯片 上 还 是 在 单个 CPU 芯片 上 ， 我 们 称 之 为 多 核 (multicore) 或 多 处 理 器 
(multiprocessor) 系统 。 多 线程 编程 提供 机 制 ， 以 便 更 有 效 地 使 用 这 些 多 个 计算 核 和 改进 的 
并 发 性 。 考 虑 一 个 应 用 ， 它 有 4 个 线程 。 对 于 单 核 系统 ， 并 发 仅仅 意味 着 线程 随 着 时 间 推 移 
交错 执行 (图 4-3 )， 因 为 处 理 核 只 能 同一 时 间 执 行 单个 线程 。 不 过 ， 对 于 多 核 系 统 ， 并 发 表 
示 线 程 能 够 并 行 运行 ， 因 为 系统 可 以 为 每 个 核 分 配 一 个 单独 线程 (图 4-4 )。 

sa pafa tm japan fe [ny ae] 
ri 
图 4-3 单 核 系统 上 的 并 发 执行 


处 理 核 心 2 
时 间 


图 4-4 多 核 系 统 上 的 并 行 执行 


注意 这 里 讨论 的 并 行 性 (parallelism) 和 并 发 性 (concurrency) 的 区 别 。 并 行 系统 可 以 同 
时 执行 多 个 任务 。 相 比 之 下 ， 并 发 系统 支持 多 个 任务 ， 人 允许 所 有 任务 都 能 取得 进展 。 因 此 ， 
没有 并 行 ， 并 发 也 是 可 能 的 。 在 SMP 和 多 核 架构 出 现 之 前 ， 大 多 数 计算 机 系统 只 有 单个 处 
Hiko CPU 调度 器 通过 快速 切换 系统 内 的 进程 ， 以 便 允 许 每 个 进程 取得 进展 ， 从 而 提供 并 
行 假象 。 这 些 进程 并 发 运行 ， 而 非 并 行 运行 。 

随 着 系统 线程 数量 从 几 十 个 到 几 千 上 万 个 ，CPU 设计 人 员 通 过 增加 硬件 来 改善 线程 性 
能 的 提高 系统 性 能 。 现 代 Intel CPU 的 每 个 核 经 常 支持 两 个 线程 ， 而 Oracle T4 CPU 的 每 个 
核 支持 8 个 线程 。 这 种 支持 意味 着 ,可 以 将 多 个 线程 加 载 到 处 理 核 以 便 快速 切换 。 毫 无 疑 
问 ， 多 核 计 算 机 将 继续 增加 多 核 数量 和 硬件 线程 支持 。 


Amdahl 定律 
Amdahl 定律 是 一 个 公式 。 对 于 既 有 串 行 也 有 并 行 组 件 的 应 用 程序 ， 该 公式 确定 由 于 


额外 计算 核 的 增加 而 潜在 的 性 能 改进 。 如 果 38 是 应 用 程序 的 一 部 分 ， 它 在 具有 N 个 处 理 
核 的 系统 上 可 以 串 行 执行 ， 那 么 该 公式 如 下 : 


wk LS 





S+— 
N 
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作为 一 个 例子 ,假设 我 们 有 一 个 应 用 程序 ， 其 75% 为 并 行 而 25% 为 串 行 。 如 果 我 们 在 具 
有 两 个 处 理 核 的 系统 上 运行 这 个 程序 我们 能 得 到 1.6 倍 的 加 速 比 。 如 果 我 们 再 增加 两 核 
(一 共有 4 个 )， 加 速 比 是 2.28 倍 。 

关于 Amdahl 定律 的 一 个 有 趣事 实 是 ， 当 WN 趋 于 无 穿 大 时 ， 加 速 比 收敛 到 1/S。 例 
如 ， 如 果 应 用 程序 的 40% 为 串 行 执行 ， 无 论 我 们 添加 多 少 处 理 核 ， 那 么 最 大 加 速 比 为 2.5 
倍 。 这 是 Amdahl 定律 背后 的 根本 原则 : 对 于 通过 增加 额外 计算 核 而 获得 的 性 能 ， 应 用 程 
序 的 串 行 部 分 可 能 具有 不 成 比例 的 效果 。 

有 些 人 认为 ，Amdahl 定律 没有 考虑 现代 多 核 设计 使 用 的 硬件 性 能 增强 。 这 种 观点 认 
为 : 随 着 现代 计算 机 系统 处 理 核 数量 的 不 断 增 加 ，Amdahl 定律 可 能 不 再 适用 。 


4.2.1 编程 挑战 


多 核 系 统 趋势 继续 迫使 系统 设计 人 员 和 应 用 程序 开发 人 员 更 好 地 使 用 多 个 计算 核 。 操 作 
系统 设计 人 员 必 须 编写 调度 算法 利用 多 个 处 理 核 以 便 允 许 并 行 执 行 ， 如 图 4-4 所 示 。 对 于 应 
用 程序 开发 人 员 来 说 ,挑战 是 修改 现 有 程序 和 设计 新 的 程序 以 便利 用 多 线程 。 

一 般 而 言 ， 多 核 系统 编程 有 五 个 方面 的 挑战 : 
识别 任务 : 这 涉及 分 析 应 用 程序 ， 查 找 区 域 以 便 分 为 独立 的 、 并 发 的 任务 。 在 理想 
情况 下 ,任务 是 互相 独立 的 ， 因 此 可 以 在 多 核 上 并 行 运行 。 
平衡 : 在 识别 可 以 并 行 运行 任务 时 ， 程 序 员 还 应 确保 任务 执行 同等 价值 的 工作 。 在 
有 些 情况 下 ， 有 的 任务 与 其 他 任务 相 比 ， 可 能 对 整个 任务 的 贡献 并 不 多 ; 采用 单独 
核 来 执行 这 个 任务 就 不 值得 了 。 
数据 分 割 : 正如 应 用 程序 要 分 为 单独 任务 ， 由 任务 访问 和 操作 的 数据 也 应 划分 以 便 
运行 在 单独 的 核 上 。 
数据 依赖 : 任务 访问 的 数据 必须 分 析 多 个 任务 之 间 的 依赖 关系 。 当 一 个 任务 依赖 于 
另 一 个 任务 的 数据 时 ， 程 序 员 必 须 确保 任务 执行 是 同步 的 ， 以 适应 数据 依赖 性 。 第 6 
章 会 分 析 这 些 策略 。 
测试 与 调试 : 当 一 个 程序 并 行 运行 于 多 核 时 ， 许 多 不 同 的 执行 路 径 是 可 能 的 。 测 试 
与 调试 这 样 的 并 发 程序 比 测试 和 调试 单线 程 的 应 用 程序 自然 更 加 困难 。 

由 于 这 些 挑战 ， 许 多 软件 开发 人 员 认 为 ， 多 核 系统 的 出 现 将 需要 一 个 全 新 方法 来 设计 未 来 软 
件 系统 。( 同 样 ， 许 多 计算 机 科学 教育 者 也 认为 : 软件 开发 课程 应 当 强调 平行 编程 。) 


4.2.2 ”并 行 类 型 


通常 ， 有 两 种 类 型 的 并 行 : 数据 并 行 和 任务 并 行 。 数 据 并 行 (data parallelism) 注重 将 
数据 分 布 于 多 个 计算 核 上 ， 并 在 每 个 核 上 执行 相同 操作 。 例 如 ， 考 虑 一 下 对 大 小 为 的 数 
组 的 内 容 进行 求 和 。 对 于 单 核 系统 ， 一 个 线程 只 能 简单 相 加 元 素 [0] … [N-1]。 不 过 ， 对 于 
双核 系统 ， 线 程 4， 运 行 在 核 0 上 ， 相 加 元 素 [0] … (N/2-1]; 而 线程 83， 运 行 在 核 1 上 ， 相 
加 元 素 [N/2] … [N-1]。 这 两 个 线程 可 并 行 运 行 在 各 自 的 计算 核 上 。 

任务 并 行 (task parallelism) 涉及 将 任务 (线程 ) 而 不 是 数据 分 配 到 多 个 计算 核 。 每 个 线程 
都 执行 一 个 独特 的 操作 。 不 同 线程 可 以 操作 相同 的 数据 ， 或 者 也 可 以 操作 不 同 的 数据 。 再 考虑 
刚才 的 例子 。 与 那个 情况 相反 ， 一 个 并 行 任务 的 例子 可 能 涉及 两 个 线程 ， 每 个 线程 对 元 素数 组 
执行 一 个 唯一 的 统计 操作 。 再 次 ， 线 程 在 单独 计算 核 上 并 行 操作 ,但 是 每 个 执行 一 个 独特 操作 。 
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从 根本 上 说 ， 数 据 并 行 涉及 分 布 数据 到 多 个 核 ， 而 任务 并 行 分 布 多 个 任务 到 多 个 核 。 然 
而 ， 在 实践 中 ， 应 用 程序 很 少 严格 遵循 数据 或 任务 并 行 。 在 大 多 数 情况 下 ， 应 用 程序 混合 使 
用 这 两 个 策略 。 


43 多 线程 模型 

迄今 为 止 ， 我 们 只 是 泛泛 地 讨论 了 线程 。 不 过 ， 有 两 种 不 同方 法 来 提供 线程 支持 : 用 户 
层 的 用 户 线程 (user thread) 或 内 核 层 的 内 核 线程 (kernel thread)。 用 户 线程 位 于 内 核 之 上 ， 
它 的 管理 无 需 内 核 支持 ; 而 内 核 线程 由 操作 系统 来 直接 支持 与 管理 。 几 乎 所 有 的 现代 操作 系 
统 ， 包 括 Windows, Linux, Mac OS X 和 Solaris， 都 支持 内 核 线 程 。 

最 终 ， 用 户 线程 和 内 核 线程 之 间 必 然 存在 某 种 关系 。 本 节 研 究 三 种 常用 的 建立 这 种 关系 
的 方法 : 多 对 一 模型 、 一 对 一 模型 和 多 对 多 模型 。 


4.3.1 多 对 一 模型 


多 对 一 模型 (图 4-5 ) 映射 多 个 用 户 级 线程 到 一 个 内 核 线程 。 线 程 管理 是 由 用 户 空间 的 线 
程 库 来 完成 的 ， 因 此 效率 更 高 (我 们 在 4.4 节 讨 论 线程 库 )。 不 过 ， 如 果 一 个 线程 执行 阻塞 系 
统 调用 ， 那 么 整个 进程 将 会 阻塞 。 再 者 ， 因 为 任 一 时 间 只 有 一 个 线程 可 以 访问 内 核 ， 所 以 多 
个 线程 不 能 并 行 运行 在 多 处 理 核 系统 上 。Green threads 线程 库 为 Solaris 所 采用 ， 也 为 早期 
版 本 的 Java 所 采纳 ， 它 就 使 用 了 多 对 一 模型 。 然 而 ， 现 在 几乎 没有 系统 继续 使 用 这 个 模型 ， 
因为 它 无 法 利用 多 个 处 理 核 。 


4.3.2 一 对 一 模型 


一 对 一 模型 (图 4-6 ) 映射 每 个 用 户 线程 到 一 个 内 核 线 程 。 该 模型 在 一 个 线程 执行 阻塞 系统 
调用 时 ， 能 够 允许 男 一 个 线程 继续 执行 ， 所 以 它 提供 了 比 多 对 一 模型 更 好 的 并 发 功能 ; 它 也 允许 
多 个 线程 并 行 运行 在 多 处 理 器 系统 上 。 这 种 模型 的 唯一 缺点 是 ， 创 建 一 个 用 户 线程 就 要 创建 一 个 
相应 的 内 核 线程 。 由 于 创建 内 核 线程 的 开销 会 影响 应 用 程序 的 性 能 ， 所 以 这 种 模型 的 大 多 数 实 
现 限制 了 系统 支持 的 线程 数量 。Linux， 还 有 Windows 操作 系统 的 家 族 ， 都 实现 了 一 对 一 模型 。 
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图 4-5 多 对 一 模型 图 4-6 一 对 一 模型 


4.3.3 多 对 多 模型 


多 对 多 模型 (图 4-7 ) 多 路 复 用 多 个 用 户 级 线程 到 同样 数量 或 更 少数 量 的 内 核 线程 。 内 
核 线程 的 数量 可 能 与 特定 应 用 程序 或 特定 机 器 有 关 (应 用 程序 在 多 处 理 顺 上 比 在 单 处 理 器 上 
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可 能 分 配 到 更 多 数量 的 线程 )。 

现在 我 们 考虑 一 下 这 些 设计 对 并 发 性 的 影响 。 虽 然 多 对 一 模型 允许 开发 人 员 创建 任意 多 
的 用 户 线程 ， 但 是 由 于 内 核 只 能 一 次 调度 一 个 线程 ， 所 以 并 未 增加 并 发 性 。 虽 然 一 对 一 模型 
提供 了 更 大 的 并 发 性 , 但 是 开发 人 员 应 小 心 ， 不 要 在 应 用 程序 内 创建 太 多 线程 (有 时 系统 可 
能 会 限制 创建 线程 的 数量 )。 多 对 多 模型 没有 这 两 个 缺点 : 开发 人 员 可 以 创建 任意 多 的 用 户 线 
程 ， 并 且 相 应 内 核 线程 能 在 多 处 理 器 系统 上 并 发 执行 。 而 且 ， 当 一 个 线程 执行 阻塞 系统 调用 
时 ， 内 核 可 以 调度 男 一 个 线程 来 执行 。 

多 对 多 模型 的 一 种 变种 仍然 多 路 复 用 多 个 用 户 级 线程 到 同样 数量 或 更 少数 量 的 内 核 线程 ， 但 也 
允许 绑 定 某 个 用 户 线程 到 一 个 内 核 线程 。 这 个 变种 ， 有 时 称 为 双 层 模型 ( tow-level model) (图 48 )。 
Solaris 操作 系统 在 第 9 版 以 前 支持 这 种 双 层 模型 ; 但 从 第 9 版 后 ， 就 使 用 了 一 对 一 模型 。 
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4.4 线程 库 


线程 库 (thread library) 为 程序 员 提 供 创建 和 管理 线程 的 API。 实 现 线程 库 的 主要 方法 
有 两 种 。 第 一 种 方法 是 ,在 用 户 空间 中 提供 一 个 没有 内 核 支持 的 库 。 这 种 库 的 所 有 代码 和 数 
据 结构 都 位 于 用 户 空间 。 这 意味 着 ， 调 用 库 内 的 一 个 函数 只 是 导致 了 用 户 空间 内 的 一 个 本 地 
函数 的 调用 ， 而 不 是 系统 调用 。 

第 二 种 方法 是 ， 实 现 由 操作 系统 直接 支持 的 内 核 级 的 一 个 库 。 对 于 这 种 情况 ， 库 内 的 代 
码 和 数据 结构 位 于 内 核 空 间 。 调 用 库 中 的 一 个 API 函数 通常 会 导致 对 内 核 的 系统 调用 。 

目前 使 用 的 三 种 主要 线程 库 是 : POSIX Pthreads、Windows、Java。Pthreads 作为 
POSIX 标准 的 扩展 ， 可 以 提供 用 户 级 或 内 核 级 的 库 。Windows 线程 库 是 用 于 Windows 操作 
系统 的 内 核 级 线程 库 。Java 线程 API 允许 线程 在 Java 程序 中 直接 创建 和 管理 。 然 而 ， 由 于 
大 多 数 JVM 实例 运行 在 宿主 操作 系统 之 上 ，Java 线程 API 通常 采用 宿主 系统 的 线程 库 来 实 
现 。 这 意味 着 在 Windows 系统 上 ，Java 线程 通常 采用 Windows API 来 实现 ， 而 在 UNIX 和 
Linux 系统 中 采用 Pthreads 来 实现 。 

对 于 POSIX 和 Windows 线程 ， 全 局 声明 ( 即 在 函数 之 外 声明 的 ) 的 任何 数据 ， 可 为 同 
一 进程 的 所 有 线程 共享 。 因 为 Java 没有 全 局 数据 的 概念 ， 所 以 线程 对 共享 数据 的 访问 必须 
加 以 显 式 安排 。 属 于 某 个 函数 的 本 地 数据 通常 位 于 堆栈 。 由 于 每 个 线程 都 有 上 自己 的 堆栈 ， 每 
个 线程 都 有 自己 的 本 地 数据 。 

在 本 节 的 余下 部 分 中 ,我 们 将 通过 这 三 种 线程 库 介绍 简 单 的 线程 创建 。 作 为 一 个 说 明 例 
于 ， 我 们 设计 了 一 个 多 线程 程序 ， 以 便 执行 非 负 整数 的 求 和 ， 这 里 采用 了 著名 的 求 和 函数 : 
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和 =2 
例如 ， 如 果 NN 为 5， 这 个 函数 表示 对 从 0 到 5 的 整数 进行 求 和 ， 结 果 为 15。 这 三 个 程序 根 
据 从 命令 上 输入 的 求 和 的 上 界 来 运行 。 因 此 ， 如 果 用 户 输入 8， 那 么 输出 的 将 是 从 0 到 8 的 
整数 值 的 总 和 。 

我 们 在 继续 线程 创建 的 例子 之 前 ， 介 绍 多 线程 创建 的 两 个 常用 策略 : 异步 线程 和 同步 线 
程 。 对 异步 线程 ， 一 旦 父 线程 创建 了 一 个 子 线程 后 ， 父 线程 就 恢复 自身 的 执行 ， 这 样 父 线程 
与 子 线程 会 并 发 执行 。 每 个 线程 的 运行 独立 于 其 他 线程 ， 父 线程 无 需 知道 子 线程 何 时 终止 。 
由 于 线程 是 独立 的 ， 所 以 线程 之 间 通 常 很 少 有 数据 共享 。 如 图 4-2 所 示 的 多 线程 服务 器 使 用 
的 策略 就 是 异步 线程 。 

如 果 父 线程 创建 一 个 或 多 个 子 线程 后 ， 那 么 在 恢复 执行 之 前 应 等 待 所 有 子 线程 的 终止 (分 
又 一 连接 策略 )， 这 就 出 现 了 同步 线程 。 这里， 由 父 线程 创建 的 线程 并 发 执行 工作 ， 但 是 父 线 
程 在 这 个 工作 完成 之 前 无 法 继续 。 一 旦 每 个 线程 完成 了 它 的 工作 ， 它 就 会 终止 ， 并 与 父 线程 
连接 。 只 有 在 所 有 子 线程 都 连接 之 后 ， 父 线程 才 恢复 执行 。 通 常 ， 同 步 线程 涉及 线程 之 间 的 
大 量 数据 的 共享 。 例 如 ， 父 线程 可 以 组 合 由 子 线程 计算 的 结果 。 所 有 下 面 的 例子 都 使 用 同步 
线程 。 


4.4.1 Pthreads 


Pthreads 是 POSIX 标准 (IEEE 1003.1c) 定义 的 线程 创建 与 同步 API。 这 是 线程 行为 
的 规范 ( specification)， 而 不 是 实现 (implementation )。 操 作 系 统 设 计 人 员 可 以 根据 意愿 采 
取 任 何 形式 的 实现 。 许 多 操作 系统 都 实现 了 这 个 线程 规范 ， 大 多 数 为 UNIX 类 型 的 系统 ， 
如 Linux, Mac OS X fil Solaris。 虽 然 Windows 本 身 并 不 支持 Pthreads， 但 是 有 些 第 三 方 为 
Windows 提供 了 Pthreads 的 实现 。 

如 图 4-9 所 示 的 C 程序 演示 了 基本 的 Pthreads API， 它 构造 一 个 多 线程 程序 ， 用 于 通过 
一 个 独立 线程 来 计算 非 负 整数 的 累加 和 。 对 于 Pthreads 程序 ， 独 立 线程 是 通过 特定 函数 执行 
的 。 在 图 4-9 中 ， 这 个 特定 函数 是 runner() 函数 。 当 程序 开始 时 ， 单 个 控制 线程 从 main() 
函数 开始 。 在 初始 化 之 后 ，main() 函数 创建 了 第 二 个 线程 ， 它 从 runner() 函数 开始 控制 。 
两 个 线程 共享 全 局 数据 sum。 

FH, 我们 深入 分 析 这 个 程序 。 所 有 的 Pthreads 程序 都 要 包括 头 文件 pthread.h。 语 
句 pthread_t tid 声 明了 创建 线程 的 标识 符 。 每 个 线程 都 有 一 组 属性 ， 包 括 堆栈 大 小 和 
调度 信息 。 声 明 pthread_attr_t attr 表示 线程 属性 ; 通过 调用 肾 数 pthread_attr_ 
init(&attr) 可 以 设置 这 些 属性 。 由 于 没有 明确 设置 任何 属性 ， 所 以 使 用 缺 省 属性 (第 5 章 
讨论 由 Pthreads API 提供 的 一 些 调度 属性 )。 通 过 调用 函数 pthread_create() 可 以 创建 一 
个 单独 线程 。 除 了 传递 线程 标识 符 和 线程 属性 外 ， 还 要 传递 函数 名 称 ， 这 里 为 runner()， 
以 便 新 线程 可 以 开始 执行 这 个 函数 。 最 后 ， 还 要 传递 由 命令 行 参数 argv[1] 提供 的 整 型 
参数 。 

此 时 ， 本 程序 已 有 两 个 线程 : 初始 ( 父 ) 线程 ， 即 main() ; 执行 累加 和 ( 子 ) KE, 
即 runner() 。 这 个 程序 采用 上 面 所 述 的 分 又- 连接 策略 : 在 创建 了 累加 和 线程 之 后 ， 父 线 
程 通过 调用 pthread_join() 函数 等 待 runner() 线程 的 完成 。 累 加 和 线程 在 调用 了 函数 
pthread_exit() 之 后 就 会 终止 。 一 旦 累加 和 线程 返回 ， 父 线程 就 输出 累加 和 的 值 。 
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#include <pthread.h> 
#include <stdio.h> 


int sum; /* this data is shared by the thread(s) */ 
void *runner(void *param); /* threads call this function */ 


i main(int argc, char *argv[]) 


pthread_t tid; /* the thread identifier */ 
pthread_attr_t attr; /* set of thread attributes */ 


if (arge != 2) { 
fprintf(stderr,"usage: a.out <integer value>\n"); 
return -1; 


if (atoi(argv[1]) < 0) { 
fprintf(stderr, "%»d must be >= 0\n",atoi(argv[1])); 
return -1; 


} 


/* get the default attributes */ 
pthread_attr_init (attr) ; 

/* create the thread */ 
pthread_create(&tid,kattr,runner,argv[1]); 
/* wait for the thread to exit */ 
pthread_join(tid, NULL) ; 


printf ("sum = %d\n",sum) ; 


/* The thread will begin control in this function */ 
void *runner(void *param) 


int i, upper = atoi(param); 
sum = 0; 


for (i = 1; i <= upper; i++) 
sum += i; 


pthread_exit(0); 





Fl 4-9 采用 Pthreads API 的 C 语言 多 线程 程序 


这 个 示例 程序 只 创建 一 个 线程 。 随 着 越 来 ”fgocpie mn Times 16 
越 多 的 多 核 系 统 的 出 现 ， 编 写 包 含 多 个 线程 的 程 ; , 
* an array of threads to be joined upon */ 
序 也 变 得 越 来 越 普遍 。 通 过 pthread_join() 等 |pthread-t workers [NUM_THREADS] ; 
待 多 个 线程 的 一 个 简单 方法 : 将 这 个 操作 包含 在 | for Gnt i = 0; i < NUMTHREADS; i++) 
一 个 简单 的 for 循环 中 。 例如 ， 通过 如 图 4-10 pthread_join(workers[i], NULL); 
所 示 的 Pthreads 代码 ， 你 能 连接 10 个 线程 。 图 4-10 用 于 连接 10 个 线程 的 Pthreads 代码 


4.4.2 Windows 线程 


采用 Windows 线程 库 创 建 线程 的 技术 ， 在 许多 方面 都 类 似 于 Pthreads 技术 。 如 图 4-11 
所 示 的 C 程序 说 明了 Windows 线程 API。 注 意 ， 在 使 用 Windows API 时 ， 我 们 应 包括 头 文 
件 windows .h。 

正如 图 4-9 所 示 的 Pthreads 例子 ， 各 个 线程 共享 的 数据 ( 这 里 为 Sum) 需要 声明 为 全 局 
变量 (数据 类 型 DWORD 是 一 个 无 符号 的 32 位 整 型 ); 还 定义 了 一 个 函数 Summation() 以 便 
在 单独 线程 中 执行 ， 该 函数 还 要 传递 一 个 void 指针 ，Windows 将 其 定义 为 LPVOID。 执 行 
这 个 函数 的 线程 将 全 局 数据 Sum 赋值 为 : 从 0 到 Param 的 累加 和 的 值 ， 这 里 Param 为 传递 
到 函数 Summation() 的 参数 。 

线程 创建 的 Windows API 为 函数 CreateThread() ; 与 Pthreads 一 样 ， 还 要 传 给 这 个 
函数 一 组 线程 属性 。 这 些 属 性 包括 安全 信息 、 堆 栈 大 小 、 用 于 表示 线程 是 否 处 于 暂停 状态 
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的 标志 。 这 个 程序 采用 这 些 属性 的 缺 省 值 (在 缺 省 情况 下 ， 新 创建 线程 的 状态 不 是 暂停 的 ， 
而 是 由 CPU 调度 程序 来 决定 它 是 否 可 以 运行 。) 在 创建 累加 和 线程 后 ， 父 线程 在 输出 累加 
和 之 前 应 等 待 累加 和 线程 的 完成 ， 因 为 该 值 是 累加 和 线程 赋值 的 。 回 想 一 下 Pthreads 程序 
(图 4-9): 通过 pthread_join() 语句 ， 父 线程 等 待 累 加 和 线程 。 执 行 对 应 功能 的 Windows 
API 为 函数 WaitForSingle0bject() ， 它 导致 创建 者 线程 阻塞 ， 直 到 累加 和 线程 退出 。 

在 需要 等 待 多 个 线程 完成 的 情况 下 ， 可 以 采用 函数 WaitForMultiple0bjects()。 这 


H H R E 


个 函数 需要 4 个 参数 : 








等 待 对 象 的 数量 。 

对 象 数组 的 指针 。 

是 否 等 待 所 有 对 象 信号 的 标志 。 
超时 时 长 (或 INFINITE (无 穷 ))。 





#include <windows.h> 
#include <stdio.h> 
DWORD Sum; /* data is shared by the thread(s) */ 


/* the thread runs in this separate function */ 
DWORD WINAPI Summation(LPVOID Param) 


DWORD Upper = *(DWORD*)Param,; 

for (DWORD i = 0; i <= Upper; i++) 
Sum += i; 

return 0; 


int main(int argc, char *argv[]) 


DWORD ThreadId; 
HANDLE ThreadHandle; 
int Param; 


if (arge != 2) { 
fprintf(stderr,"An integer parameter is required\n"); 
return -1; 

} 

Param = atoi(argv[1]); 

if (Param < 0) { 
fprintf(stderr,"An integer >= 0 is required\n"); 
return -1; 


} 


/* create the thread */ 
ThreadHandle = CreateThread( 
NULL, /* default security attributes */ 
0, /* default stack size */ 
Summation, /* thread function */ 
&Param, /* parameter to thread function */ 
0, /* default creation flags */ 
&ThreadId); /* returns the thread identifier */ 


if (ThreadHandle != NULL) { 
/* now wait for the thread to finish */ 
WaitForSingleObject (ThreadHand1le, INFINITE) ; 


/* close the thread handle */ 
CloseHandle(ThreadHand1e) ; 


printf("sum = %d\n",Sum) ; 





图 4-11 采用 Windows API 的 多 线程 C 程序 
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例如 ， 如 果 THandles 为 线程 HANDLE 对 象 的 数组 ， 大 小 为 N， 那 么 父 线程 可 以 通过 如 
下 语句 等 待 所 有 子 线程 都 已 完成 : 


WaitForMultipleObjects(N, THandles, TRUE, INFINITE); 
4.4.3 Java 线程 


Java 程序 的 线程 是 程序 执行 的 基本 模型 ，Java 语言 和 API 为 线程 创建 和 管理 提供 了 丰 
富 的 功能 。 所 有 Java 程序 至 少 包含 一 个 控制 线程 ， 即 使 只 有 方法 main() 的 一 个 简单 Java 
程序 也 是 在 JVM 中 作为 一 个 线程 运行 的 。Java 线程 可 运行 于 提供 JVM 的 任何 系统 ， 如 
Windows、Linux 和 Mac OS X 等 。Java 线程 也 可 用 于 Android 应 用 程序 。 

在 Java 程序 中 ， 有 两 种 技术 来 创建 线程 。 一 种 方法 是 创建 一 个 新 的 类 ， 它 从 类 Thread 派 
生 并 重 载 函数 run() 。 另 外 一 种 更 常 使 用 的 方法 是 定义 一 个 实现 接口 Rannable 的 类 。Runnable 
接口 定义 如 下 : 

public interface Runnable 


public abstract void run(); 


} 


当 一 个 类 实现 接口 Runnable 时 ， 它 必须 定义 一 个 方法 run() 。 方 法 run() 的 实现 代码 就 是 
作为 一 个 单独 线程 来 运行 的 。 

图 4-12 为 Java 多 线程 程序 ， 用 于 计算 非 负 整数 的 累加 和 。 类 Summation 实现 接口 Runnable, 
线程 创建 是 ， 通 过 创建 类 Thread 的 一 个 对 象 实例 并 且 传 给 构造 函数 一 个 Runnable 对 象 。 

创建 Thread 对 象 不 会 创建 一 个 新 的 线程 ， 实 际 上 ， 方 法 start() 创建 新 的 线程 。 调 用 
新 对 象 的 方法 start O 做 两 件 事 : 

e JVM 中 ， 为 新 线程 分 配 内 存 并 初始 化 。 

e 调用 方法 run() ， 以 便 能 在 JVM 中 运行 (再 次 提醒 : 我 们 从 不 直接 调用 方法 run()， 

而 是 调用 方法 start () ， 然 后 它 会 调用 方法 run() )。 

当 累 加 和 程序 运行 时 ，JVM 创建 两 个 线程 。 第 一 个 是 父 线程 ， 它 从 函数 main() F 
始 执行 。 第 二 个 线程 在 调用 Thread 对 象 的 方法 start O 时 加 以 创建 。 这 个 子 线程 从 类 
Summation 的 方法 run() 开始 执行 。 在 输出 总 和 值 之 后 ， 该 线程 在 退出 方法 run() 时 
终止 。 

对 于 Windows 和 Pthreads， 线 程 间 的 数据 共享 容易 ， 因 为 共享 数据 可 简单 声明 成 全 局 
数据 。 作 为 一 个 纯 面 向 对 象 语言 ，Java 没有 这 样 的 全 局 数据 概念 。 在 Java 程序 中 ， 如 果 
两 个 或 更 多 的 线程 需要 共享 数据 ， 那 么 可 以 通过 向 相应 线程 传递 共享 对 象 引 用 来 实现 。 在 
图 4-12 所 示 的 Java 程序 中 ,线程 main 和 累加 和 线程 共享 类 Sum 的 对 象 实例 。 对 这 个 共 
享 对 象 的 访问 ， 采 用 方法 getSum() 和 setSum() 。( 你 可 能 好 奇 为 什么 不 使 用 java.lang. 
Integer 对 象 ， 而 是 设计 一 个 新 的 sum 类 。 这 是 因为 java.lang.Integer 类 是 不 可 变 的 ， 
即 一 旦 赋值 ， 就 不 可 改变 。) 

回想 一 下 Pthreads 和 Windows 库 的 父 线 程 ， 它 们 在 继续 之 前 ， 分 别 使 用 pthread_ 
join() 或 WaitForSingle0bject() 等 待 累 加 和 线程 的 结束 。Java 的 方法 join() 提供 了 
类 似 的 功能 。( 注 意 ，join() 可 能 会 抛 出 InterruptedException， 但 是 这 里 就 不 细 说 了 。) 
如 果 父 线程 需要 等 待 多 个 线程 的 完成 ， 那 么 可 将 方法 joina() 放 到 一 个 for 循环 ， 类 似 于 
图 4-10 所 示 的 Pthreads 程序 。 
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class Sum 
private int sum; 


public int getSum() { 
return sum; 
} 


public void setSum(int sum) { 
this.sum = sum; 


} 
class Summation implements Runnable 


private int upper; 
private Sum sumValue; 


public Summation(int upper, Sum sumValue) { 
this.upper = upper; 
this.sumValue = sumValue; 


} 


public void run() { 
int sum = 0; 
for (int i = 0; i <= upper; i++) 
sum += i; 
sumValue.setSum(sum) ; 
} 
} 


public class Driver 





public static void main(String[] args) { 
if (args.length > 0) { 
if (Integer.parseInt (args[0]) < 0) 
System.err.println(args[0] + " must be >= 0."); 
else { 
Sum sumObject = new Sum(); 
int upper = Integer.parseInt (args [0] ); 
Thread thrd = new Thread(new Summation(upper, sumObject) ); 
thrd.start (); 
try { 
thrd.join(); 
System.out.printin 
("The sum of "+upper+" is "+sumObject.getSum() ) ; 
} catch (InterruptedException ie) { } 


} 
else 
System.err.println("Usage: Summation <integer value>") ; 


} 





图 4-12 用 于 求 和 非 负 整数 的 Java 程序 


4.5” 隐 式 多 线程 


随 着 多 核 处 理 的 日 益 增多 ， 出 现 了 拥有 数 百 甚至 数 千 线 程 的 应 用 程序 。 设 计 这 样 的 应 用 
程序 不 是 一 个 简单 的 事情 : 程序 员 不 仅 处 理 4.2 节 所 列 的 挑战 ， 而 且 还 要 面 对 其 他 的 困难 。 
这 些 困 难 ， 与 程序 正确 性 有 关 ， 将 在 第 6 章 和 第 7 章 中 加 以 讨论 。 

针对 解决 这 些 困难 并 且 更 好 支持 设计 多 线程 程序 ， 有 一 种 方法 是 将 多 线程 的 创建 与 管理 
交 给 编译 器 和 运行 时 库 来 完成 。 这 种 策略 称 为 隐 式 线程 (implicit threading)， 是 一 种 流行 趋 
势 。 在 这 节 中 ， 为 了 利用 多 核 ， 我 们 探讨 了 三 种 可 供 选 择 的 、 基 于 隐 式 线程 的 、 多 线程 程序 
的 设计 方法 。 


JVM 与 宿主 操作 系统 
JVM 通常 实现 在 宿主 操作 系统 (host operating system) 上 。 这 种 设置 允许 JVM 隐藏 
底层 操作 系统 的 实现 细节 ， 提 供 一 个 一 致 的 、 抽 象 的 环境 ， 人 允许 Java 程序 能 够 运行 在 任 
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何 支持 JVM 的 平台 上 。JVM 规范 没有 规定 Java 线程 如 何 被 映射 到 底层 操作 系统 ， 而 是 
让 JVM 的 特定 实现 来 决定 。 例 如 ，Windows XP 操作 系统 采用 一 对 一 模式 ; 因此 ， 这 类 
系统 的 JVM 会 将 每 个 Java 线程 映射 到 一 个 内 核 线程 。 在 采用 多 对 多 模式 的 操作 系统 上 
(如 Tru64 UNIX)， 根 据 多 对 多 模式 来 映射 Java 线程 。Solaris 系统 起 初 采用 一 对 一 模式 
(如 前 所 述 的 绿色 线程 库 ) 来 实现 JVM， 后 来 采用 了 多 对 多 模式 。 从 Solaris 9 开始 ， 采 用 
一 对 一 模型 来 映射 Java 线程 。 此 外 ， 在 Java 线程 库 和 宿主 操作 系统 线程 库 之 间 ， 也 会 存 
在 联系 。 例 如 ，Windows 操作 系统 的 JVM 可 以 在 创建 Java 线程 时 ， 使 用 Windows API ; 
Linux, Solaris 和 Mac OS X 系统 可 能 采用 Pthreads API. 


4.5.1 线程 池 


4.1 节 描 述 了 一 个 多 线程 的 Web 服务 器 。 在 这 种 情况 下 ,每 当 服 务 器 接收 到 一 个 请 求 
时 ， 它 都 会 创建 一 个 单独 线程 来 处 理 请 求 。 虽 然 创建 一 个 单独 线程 肯定 优 于 创建 一 个 单独 进 
程 ， 但 是 多 线程 服务 器 仍然 有 些 潜在 的 问题 。 第 一 个 问题 是 创建 线程 所 需 的 时 间 多 少 ， 以 及 
线程 在 完成 工作 之 后 会 被 丢弃 的 事实 。 第 二 个 问题 更 为 麻烦 : 如 果 人 允许 所 有 并 发 请 求 都 通过 
新 线程 来 处 理 ， 那 么 我 们 没有 限制 系统 内 的 并 发 执行 线程 的 数量 。 无 限制 的 线程 可 能 耗 尽 系 
统 资源 ， 如 CPU 时 间 和 内 存 。 解 决 这 个 问题 的 一 种 方法 是 使 用 线程 池 (thread pool). 

线程 池 的 主要 思想 是 : 在 进程 开始 时 创建 一 定数 量 的 线程 ， 并 加 到 池 中 以 等 待 工 作 。 当 
服务 器 收 到 请 求 时 ， 它 会 唤醒 池内 的 一 个 线程 (如 果 有 可 用 线程 )， 并 将 需要 服务 的 请 求 传 
递 给 它 。 一 旦 线程 完成 了 服务 ， 它 会 返回 到 池 中 再 等 待 工 作 。 如 果 池 内 没有 可 用 线程 ， 那 么 
服务 器 会 等 待 ， 直 到 有 空 线程 为 止 。 

线程 池 具 有 以 下 优点 : 

e 用 现 有 线程 服务 请 求 比 等 待 创 建 一 个 线程 更 快 。 

o 线程 池 限 制 了 任何 时 候 可 用 线程 的 数量 。 这 对 那些 不 能 支持 大 量 并 发 线程 的 系统 非 

常 重 要 。 
© 将 要 执行 任务 从 创建 任务 的 机 制 中 分 离 出 来 ， 允 许 我 们 采用 不 同 策略 运行 任务 。 例 
如 ,任务 可 以 被 安排 在 某 一 个 时 间 延 迟 后 执行 ， 或 定期 执行 。 

池内 线程 的 数量 可 以 通过 一 些 因 素来 加 以 估算 ， 如 系统 CPU 的 数量 、 物 理 内 存 的 大 小 
和 并 发 客户 请 求 数量 的 期 望 值 等 。 更 为 高 级 的 线程 池 架 构 可 以 根据 使 用 模式 动态 调整 池内 线 
程 数 量 。 这 类 架构 在 系统 负荷 低 时 ， 提 供 了 较 小 的 池 ， 从 而 减低 内 存 消 耗 。 本 节 后 面 会 讨论 
这 样 的 一 个 架构 ， 即 Apple 的 大 中 央 调 度 。 

Windows API 提供 了 与 线程 池 有 关 的 多 个 函数 。 使 用 线程 池 API 类似 于 通过 函数 
Thread_Create() 来 创建 线程 ， 参 见 4.4.2 节 。 这 里 ， 定 义 一 个 函数 ， 以 作为 单独 线程 来 运 
行 。 这 样 一 个 函数 如 下 所 示 : 

DWORD WINAPI PoolFunction (AVOID Param) { 

* this function runs as a separate thread. 
*/ 

} 
PoolFunction() 的 指针 会 被 传 给 线程 池 API 中 的 一 个 函数 ， 池 内 的 某 个 线程 会 执行 该 函 
数 。 线 程 池 API 的 一 个 这 种 函数 为 QueueUserWorkItem() ， 它 需要 三 个 参数 : 

e LPTHREAD START ROUTINE Function; 作为 一 个 单独 线程 来 运行 的 函数 的 指针 。 

è PVOID Param: 传递 给 Function 的 参数 。 
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e ULONG Flags: 标志 ， 用 于 指示 多 线程 池 如 何 创建 线程 和 管理 线程 执行 。 
调用 这 个 函数 的 示例 如 下 : 
QueueUserWorkItem(&PoolFunction, NULL, 0); 
这 让 线程 池 的 一 个 线程 代替 程序 员 来 调用 PoolFunction()。 这 里 ， 我 们 没有 传递 参数 给 
PoolFunction() 。 由 于 标志 设 为 0， 因此 针对 线程 池 如 何 创建 线程 ， 没 有 特殊 指令 。 
Windows 线程 池 API 还 包括 可 周期 性 地 调用 函数 ， 或 在 一 个 异步 IO 请 求 结束 时 调用 
函数 。Java API 的 java.util.concurrent 也 提供 了 线程 池 支 持 。 


4.5.2 OpenMP 


OpenMP 为 一 组 编译 指令 和 API， 用 于 编写 C、C++、Fortran 等 语言 的 程序 ， 它 支持 共 
享 内 存 环境 下 的 并 行 编程 。OpenMP 识别 并 行 区域 ( parallel region)， 即 可 并 行 运行 的 代码 
块 。 应 用 程序 开发 人 员 在 并 行 区 域 插 入 编译 指令 ， 这 些 指令 指示 OpenMP 运行 时 库 来 并 行 
执行 这 些 区 域 。 下 面 的 C 程序 说 明了 ， 一 个 编译 指令 应 用 于 一 个 并 行 区 域 ， 该 区 域 包含 一 
个 printf() 语句 : 


#include <omp.h> 
#include <stdio.h> 


int main(int argc, char *argv[]) 
/* sequential code */ 
#pragma omp parallel 


printf("I am a parallel region."); 


/* sequential code */ 


return 0; 


} 

“4 OpenMP 遇 到 如 下 指令 时 ， 

#pragma omp parallel 
它 会 创建 与 系统 处 理 核 一 样 多 的 线程 。 因 此 ， 对 于 一 个 双核 系统 ， 会 创建 两 个 线程 ;对 于 一 
个 四 核 系统 ， 会 创建 四 个 线程 ; 等 等 。 所 有 线程 ， 然 后 同时 执行 并 行 区 域 。 当 每 个 线程 退出 
并 行 区 域 时 ， 也 就 终止 了 。 

OpenMP 提供 了 一 些 其 他 指令 ， 包 括 循环 并 行 化 ， 用 于 运行 并 行 区 域 的 代码 。 例 如 ， 假 
设 我 们 有 大 小 为 N 的 两 个 数组 a 和 4b， 我 们 希望 求 它们 内 容 的 和 ， 并 把 结果 放 在 数组 c 中 。 
我 们 可 以 通过 使 用 下 面 的 代码 段 来 并 行 运行 这 个 任务 ， 这 里 采用 了 for 循环 的 并 行 化 指令 : 

#pragma omp parallel for 


for (i = 0; i < Ny i++) A 
efi] = ali] + bli]; 


OpenMP 会 将 这 个 for 循环 的 工作 分 配 到 多 个 线程 。 这 些 线程 是 因 如 下 指令 而 产生 的 :; 
#pragma omp parallel for 

除了 提供 并 行 化 的 指令 ，OpenMP 允许 开发 者 在 多 个 级 别 的 并 行 化 中 进行 选择 。 例 如 ， 他 们 

可 以 手工 设置 线程 数量 。 它 还 允许 开发 人 员 指 定 哪些 数据 可 以 在 线程 间 共 享 ， 哪 些 只 能 属于 

某 个 线程 。OpenMP 可 以 用 于 多 个 开源 的 或 商用 的 编译 器 ， 所 支持 的 操作 系统 包括 Linux、 

Windows 和 Mac OS X。 有 兴趣 学 习 更 多 OpenMP 的 读者 ， 可 参考 本 章 后 面 的 推荐 读物 。 
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4.5.3 大 中 央 调 度 


大 中 央 调 度 (Grand Central Dispatch, GCD) ——Apple Mac OS X FI iOS 操作 系统 的 一 
种 技术 ,为 C 语言 、API 和 运行 时 库 的 一 组 扩展 ， 它 允许 应 用 程序 开发 人 员 将 某 些 代码 区 段 
并 行 运行 。 像 OpenMP 一 样 ，GCD 管理 大 多 数 的 多 线程 细节 。 

GCD 为 C 和 C++ 语言 增加 了 块 (block) 的 扩展 。 每 块 只 是 工作 的 一 个 独立 单元 。 它 用 
花 括 号 {} 将 代码 括 起 来 ， 然 后 前 面 加 上 字符 。 一 个 简单 例子 如 下 : 


“{ printf ("I am a block"); } 


通过 将 这 些 块 放 置 在 调度 队列 ( dispatchqueue) E, GCD 调度 块 以 便 执行 。 当 GCD 从 队列 
上 移 除 一 块 后 ， 就 将 该 块 分 配给 线程 池内 的 可 用 线程 。GCD 识别 两 种 类 型 的 调度 队列 : $ 
行 (serial) 和 并 发 (concurrent)。 

放置 在 一 个 串 行 队 列 上 的 块 按 照 先进 先 出 的 顺序 删除 。 一 旦 一 个 块 从 队列 中 被 删除 ， 只 
有 它 执行 完 时 ， 才 会 从 该 队列 中 删除 另 一 个 块 。 每 个 进程 都 有 自己 的 串 行 队列 〈 称 为 它 的 主 
队列 (main queue))。 开 发 人 员 可 以 创建 属于 本 进程 的 其 他 串 行 队列 。 串 行 队列 用 于 确保 顺 
序 执行 多 个 任务 。 

放置 在 一 个 并 行 队列 上 的 块 也 按照 先进 先 出 的 顺序 删除 ， 但 是 ， 可 以 同时 删除 多 个 块 ， 因 
此 允许 多 个 块 并 行 运行 。 有 三 个 系统 级 的 并 发 调度 队列 ， 它 们 的 区 别 是 优先 级 : 低 、 默 认 和 高 。 
优先 级 近似 表示 块 的 相对 重要 性 。 简 单 地 说 ， 更 高 优先 级 的 块 应 该 放 到 更 高 优先 级 的 调度 队列 。 

下 面 的 代码 段 说 明了 : 获取 默认 优先 级 的 并 发 队列 ， 通 过 函数 dispatch_async() 向 该 
队列 提交 一 个 块 。 


dispatch_queue_t queue = dispatch.get_global_queue 
(DISPATCH_QUEUE_PRIORITY_DEFAULT, 0); 


dispatch_asyne(queue, “{ printf ("I am a block."); }); 


在 内 部 ，GCD 的 线程 池 由 POSIX 线程 组 成 。GCD 根据 应 用 需求 和 系统 容量 来 动态 调节 线 
程 数 量 ， 从 而 实现 对 池 的 管理 。 


4.5.4 其 他 方法 


线程 池 、OpenMP 和 Grand Central Dispatch 只 是 用 于 管理 多 线程 应 用 程序 的 众多 新 兴 
技术 中 的 少数 几 个 。 其 他 商用 方法 包括 并 行 和 并 发 库 ， 如 Intel 的 线程 构建 模块 (Threading 
Building Block, TBB) 和 一 些微 软 的 产品 。Java 语言 和 API 也 对 并 发 编程 提供 了 重要 支持 。 
一 个 著名 的 例子 就 是 java.util.concurrent 包 ， 它 支持 隐 式 线程 创建 和 管理 。 


46 多 线程 问题 
本 节 讨 论 设计 多 线程 程序 的 一 些 问 题 。 
4.6.1 系统 调用 fork() 和 exec() 


第 3 章 讨论 了 如 何 采用 系统 调用 fork() 来 创建 一 个 单独 的 、 重 复 的 进程 。 对 于 多 线程 
程序 ， 系 统 调 用 fork() 和 exec() 的 语义 有 所 改变 。 

如 果 程 序 内 的 某 个 线程 调用 fork() ， 那 么 新 进程 复制 所 有 线程 ， 或 者 新 进程 只 有 单个 
线程 ”有 的 UNIX 系统 有 两 种 形式 的 fork() ， 一 种 复制 所 有 线程 ， 另 一 种 仅仅 复制 调用 了 
系统 调用 fork() 的 线程 。 
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系统 调用 exec 的 工作 方式 与 第 3 章 所 述 方式 通常 相同 。 也 就 是 说 ， 如 果 一 个 线程 调 
用 exec() 系统 调用 ，exec() 参数 指定 的 程序 将 会 取代 整个 进程 ， 包 括 所 有 线程 。 

这 两 种 形式 的 fork() 使 用 取决 于 应 用 程序 。 如 果 分 叉 之 后 立即 调用 exec() ， 那 么 没有 必 
要 复制 所 有 线程 ， 因 为 exec() 参数 指定 的 程序 将 会 蔡 换 整 个 进程 。 在 这 种 情况 下 ， 仅 仅 复制 调 
用 线程 比较 合适 。 不 过 ， 如 果 新 的 进程 在 分 又 后 并 不 调用 exec() ， 新 进程 应 该 重复 所 有 线程 。 


4.6.2 信号 处 理 


UNIX 信号 ( signal) 用 于 通知 进程 某 个 特定 事件 已 经 发 生 。 信 号 的 接收 可 以 是 同步 的 或 
是 异步 的 ， 这 取决 于 事件 信号 的 来 源 和 原因 。 所 有 信号 ， 无 论 是 同步 的 还 是 异步 的 ， 遵 循 相 
同 的 模式 : 

© 信号 是 由 特定 事件 的 发 生 而 产生 的 。 

© 信号 被 传递 给 某 个 进程 。 

© 信号 一 旦 收 到 就 应 处 理 。 

同步 信号 的 例子 包括 非法 访问 内 存 或 被 0 所 除 。 如 果 某 个 运行 程序 执行 这 类 动作 ， 那 么 
就 会 产生 信和 号。 同步 信号 发 送 到 由 于 执行 操作 导致 这 个 信号 的 同一 进程 (这 就 是 为 什么 被 认 
为 是 同步 的 )。 

当 一 个 信号 是 由 运行 程序 以 外 的 事件 产生 的 ， 该 进程 就 异步 接收 这 一 信号 。 这 种 信号 的 
例子 包括 使 用 特殊 键 (比如 <control><c>) 来 终止 进程 ， 或 者 定时 器 到 期 等 。 通 常 ， 异 步 
信号 发 送 到 男 一 个 进程 。 

信号 处 理 程 序 可 以 分 为 两 种 : 

o 缺 省 的 信号 处 理 程序 。 

e 用 户 定义 的 信号 处 理 程序 。 

每 个 信号 都 有 一 个 缺 省 信号 处 理 程序 ( default signal handler); 在 处 理 信 号 时 ， 它 由 内 
核 来 运行 。 这 种 缺 省 动作 可 以 通过 用 户 定义 信和 号 处 理 程序 (user-defined signal handler) 来 改 
写 。 信 号 可 按 不 同方 式 处 理 。 有 的 信号 可 以 忽略 (如 改变 窗口 大 小 )， 其 他 的 (如 非法 内 存 访 
问 ) 可 能 要 通过 终止 程序 来 处 理 。 

单线 程 程序 的 信号 处 理 比较 简单 ， 信 号 总 是 传 给 进程 的 。 不 过 ， 对 于 多 线程 程序 ， 信 号 
传递 比较 复杂 ， 因 为 一 个 进程 可 能 具有 多 个 线程 。 那 么 信号 应 被 传递 到 哪里 呢 ? 

通常 具有 如 下 选择 : 

e 传递 信号 到 信和 号 所 适用 的 线程 。 

o 传递 信号 到 进程 内 的 每 个 线程 。 

o 传递 信号 到 进程 内 的 某 些 线程 。 

o 规定 一 个 特定 线程 以 接收 进程 的 所 有 信号 。 

信和 号 传递 的 方法 取决 于 产生 信号 的 类 型 。 例 如 ， 同 步 信号 需要 传递 到 产生 这 一 信号 的 
线程 ， 而 不 是 进程 的 其 他 线程 。 不 过 ， 对 于 异步 信号 ， 情 况 就 不 是 那么 明显 了 。 有 的 异步 信 
号 ， 如 终止 进程 的 信号 (例如 ，<control><C>)， 应 该 传递 到 所 有 线程 。 

传递 信号 的 标准 UNIX 函数 为 


kill(pidt pid, int signal) 


这 个 函数 指定 将 一 个 特定 信号 (signal) 传递 到 一 个 进程 ( pid)。 大 多 数 多 线程 版 的 UNIX 
允许 线程 指定 它 接收 什么 信号 和 拒绝 什么 信号 。 因 此 ， 在 有 些 情况 下 ， 一 个 异步 信号 只 能 传 
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递 给 那些 不 拒绝 它 的 线程 。 不 过 ， 因 为 信号 只 能 处 理 一 次 ， 所 以 信号 通常 传 到 第 一 个 不 拒绝 
它 的 线程 。POSIX Pthreads 提供 以 下 函数 : 


pthread kill(pthread t tid, int signal) 


虽然 Windows 并 不 显 式 提 供 信号 支持 ， 但 是 它们 允许 通过 异步 过 程 调 用 (Asynchronous 
Procedure Call, APC) 来 模拟 。APC 功能 允许 用 户 线程 ， 指 定 一 个 函数 以 便 在 用 户 线程 收 到 特 
定 事件 通知 时 能 被 调用 。 正 如 名 称 所 示 ，APC 与 UNIX 的 异步 信号 大 致 相当 。 不 过 ，UNIX fa 
要 面 对 如 何 处 理 多 线程 环境 下 的 信号 ， 而 APC 较为 简单 ， 因 为 APC 传 给 特定 线程 而 非 进 程 。 


4.6.3 ”线程 撤销 


线程 撤销 (thread cancellation) 是 在 线程 完成 之 前 终止 线程 。 例 如 ， 如 果 多 个 线程 并 发 
执行 以 便 搜索 数据 库 ， 并 且 一 个 线程 已 得 到 了 结果 ， 那 么 其 他 线程 可 以 撤销 。 另 一 可 能 发 生 
的 情况 是 : 用 户 按 下 网 页 浏览 器 上 的 按钮 ， 以 停止 进一步 加 载 网 页 。 通 常 ， 加 载 网 页 可 能 需 
要 多 个 线程 ， 每 个 图 像 都 是 在 一 个 单独 线程 中 被 加 载 的 。 当 用 户 按 下 浏览 器 的 停止 按钮 时 ， 
所 有 加 载 网 页 的 线程 就 被 撤销 。 

需要 撤销 的 线程 ， 通 常 称 为 目标 线程 (target thread)。 目 标 线程 的 撤销 可 以 有 两 种 情况 : 

e 异步 撤销 : 一 个 线程 立即 终止 目标 线程 。 

e 延迟 撤销 : 目标 线程 不 断 检查 它 是 否 应 终止 ， 这 允许 目标 线程 有 机 会 有 序 终止 自己 。 

在 有 些 情况 下 ， 如 资源 已 分 配给 已 撤销 的 线程 ， 或 者 需要 撤销 的 线程 正在 更 新 与 其 他 线程 
一 起 共享 的 数据 等 ， 撤 销 会 有 困难 。 对 于 异步 撤销 ， 这 尤其 麻烦 。 通 常 ， 操 作 系 统 收 回 撤销 线 
程 的 系统 资源 ,但 是 并 不 收回 所 有 资源 。 因 此 ， 异 步 撤销 线程 可 能 不 会 释放 必要 的 系统 资源 。 

相反 ， 对 于 延迟 撤销 ， 一 个 线程 指示 目标 线程 会 被 撤销 ; 不 过 ， 仅 当 目 标 线程 检查 到 一 
个 标志 以 确定 它 是 否 应 该 撤销 时 ， 撤 销 才 会 发 生 。 线 程 可 以 执行 这 个 检查 : 它 是 否 位 于 安全 
的 撤销 点 。 

对 于 Pthreads， 通 过 函数 pthread_cancel() 可 以 发 起 线程 撤销 。 目 标 线程 的 标识 符 作 
为 参数 传 给 这 个 函数 。 下 面 的 代码 演示 了 线程 的 创建 与 撤销 。 

pthread_t tid; 


/* create the thread */ 
pthread_create(&tid, 0, worker, NULL); 


/* cancel the thread */ 
pthread_cancel (tid); 


然而 ， 调 用 pthread_cancel() 只 表示 有 一 个 请 求 ， 以 便 撤 销 目标 线程 ; 实际 撤销 取决 
于 如 何 设置 目标 线程 以 便 处 理 请 求 。Pthreads 支持 三 种 撤销 模式 。 每 个 模式 定义 为 一 个 状态 
和 一 个 类 型 ， 如 下 表 所 示 。 线 程 可 以 通过 API 设置 撤销 状态 和 类 型 。 


模式 状态 类 型 
关闭 禁用 = 

延迟 启用 延迟 
异步 启用 异步 


如 表 所 示 ，Pthreads 允许 线程 禁用 或 启用 撤销 。 显 然 ， 如 果 线程 撤销 已 被 禁用 ,那么 它 就 
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不 能 撤销 。 然 而 ， 撤 销 请 求 仍然 处 于 等 待 ， 所 以 该 线程 可 以 稍 后 启用 撤销 并 且 响 应 这 个 请 求 。 
缺 省 撤销 类 型 为 延迟 撤销 。 这 样 ， 只 有 当 线 程 到 达 撤 销 点 (cancellation point) At, AZ 
发 生 撤销 。 建 立 撤销 点 的 一 种 技术 是 ， 调 用 函数 pthread_testcancel()。 如 果 有 一 个 撤销 
请 求 处 于 等 待 ， 那 么 就 会 调用 称 为 清理 处 理 程序 ( cleanup handler) 的 函数 。 在 线程 终止 前 ， 
这 个 函数 允许 释放 它 可 能 获得 的 任何 资源 。 
下 面 代 码 说 明了 ， 一 个 线程 如 何 通过 延迟 撤销 可 以 响应 撤销 请 求 : 
while (1) { 
/* do some work for awhile */ 
J* ary 


/* check if there is a cancellation request */ 
pthread_testcancel () ; 


} 


由 于 以 上 所 述 问题 Pthreads 文档 并 不 推荐 异步 撤销 。 因 此 ， 我 们 这 里 不 再 加 以 讨论 。 
有 趣 的 是 ， 在 Linux 系统 中 ， 通 过 Pthreads API 的 线程 撤销 是 通过 信和 号 来 处 理 的 ( 4.6.2 节 )。 


4.6.4 ”线程 本 地 存储 


同一 进程 的 线程 共享 进程 的 数据 。 事 实 上 ， 这 种 数据 共享 也 是 多 线程 编程 的 优点 之 一 。 
然而 ， 在 某 些 情况 下 ， 每 个 线程 可 能 需要 它 自 己 的 某 些 数据 。 我 们 称 这 种 数据 为 线程 本 地 存 
储 (Thread-Local Storage，TLS)。 例 如 ， 在 事务 处 理 系统 中 ， 我 们 可 以 通过 单独 线程 来 处 
理事 务 。 此 外 ， 每 个 事务 都 可 能 被 分 配 一 个 唯一 的 标识 符 。 为 了 关联 每 一 个 线程 与 它 唯一 的 
标识 符 ， 我 们 可 以 使 用 线程 本 地 存储 。 

TLS 与 局 部 变量 容易 混淆 。 然 而 ， 局 部 变量 只 在 单个 函数 调用 时 才 可 见 ; 而 TLS 数据 
在 多 个 函数 调用 时 都 可 见 。 在 某 些 方面 ，TLS 类 似 于 静态 (static) 数据 。 不 同 的 是 ，TLS 
数据 是 每 个 线程 独特 的 。 大 多 数 线程 库 ， 包 括 Windows 和 Pthreads， 对 线程 局 部 存储 都 提 
供 某 种 形式 的 支持 ; Java 也 提供 支持 。 


46.5 调度 程序 激活 


多 线程 编程 需要 考虑 的 最 后 一 个 问题 涉及 内 核 与 线程 库 间 的 通信 ，4.3.3 节 讨 论 的 多 对 多 
和 双 层 模型 可 能 需要 这 种 通信 。 这 种 协调 允许 动态 调整 内 核 线程 的 数量 ， 以 便 确 保 最 优 性 能 ， 
许多 系统 在 实现 多 对 多 或 双 层 模型 时 ， 在 用 户 和 内 核 线程 之 间 增 加 一 个 中 间 数 据 结 构 。 
这 个 数据 结构 通常 称 为 轻 量 级 进程 ( LightWeight Process, LWP), 
如 图 4-13 所 示 。 对 于 用 户 级 线程 库 ，LWP 表现 为 虚拟 处 理 器 ， < 一 一 用 户 线程 
以 便 应 用 程序 调度 并 运行 用 户 线程 。 每 个 LWP 与 一 个 内 核 线程 
相连 ， 而 只 有 内 核 线程 才能 通过 操作 系统 调度 以 便 和 运行 于 物理 
处 理 器 。 如 果 内 核 线程 阻塞 (如 在 等 待 一 个 IO 操作 结束 时 )， 
LWP 也 会 阻塞 。 这 个 链 的 上 面 ， 连 到 LWP 的 用 户 级 线程 也 会 
阻塞 。 


为 了 运行 高 效 ， 应 用 程序 可 能 需要 一 定数 量 的 LWP。 假 设 
一 个 应 用 程序 为 CPU 密集 型 的 ， 并 且 运行 在 单个 处 理 器 上 。 在 
这 种 情况 下 ,同一 时 间 只 有 一 个 线程 可 以 运行 ， 所 以 一 个 LWP @— 

就 够 了 。 不 过 ， 一 个 VO 密集 型 的 应 用 程序 可 能 需要 多 个 LWP 图 4-13 轻 量 级 进程 (LWP) 


P | < 一 轻 量 级 进程 
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来 执行 。 通 常 ， 每 个 并 发 的 、 阻 塞 的 系统 调用 需要 一 个 LWP。 例 如 ， 假设 有 5 个 不 同 的 文 
件 读 请 求 可 能 同时 发 生 ， 就 需要 5 个 LWP， 因 为 每 个 都 需要 等 待 内 核 1/0 的 完成 。 如 果 进 
程 只 有 4 个 LWP， 那么 第 5 个 请 求 必须 等 待 一 个 LWP 从 内 核 中 返回 。 

用 户 线程 库 与 内 核 之 间 的 一 种 通信 方案 称 为 调度 器 激活 ( scheduler activation)。 它 工作 
如 下 : 内 核 提供 一 组 虚拟 处 理 器 (LWP) 给 应 用 程序 ， 而 应 用 程序 可 以 调度 用 户 线程 到 任 
何 一 个 可 用 虚拟 处 理 器 。 此 外 ， 内 核 应 将 有 关 特 定 事件 通知 应 用 程序 。 这 个 步骤 称 为 回调 
(upcall)， 它 由 线程 库 通 过 回调 处 理 程序 (upcall handler) 来 处 理 。 当 一 个 应 用 程序 的 线程 要 
阻塞 时 ， 一 个 触发 回调 的 事件 会 发 生 。 在 这 种 情况 下 ， 内 核 向 应 用 程序 发 出 一 个 回调 ， 通 
知 它 有 一 个 线程 将 会 阻塞 并 且 标 识 特定 线程 。 然 后 ， 内 核 分 配 一 个 新 的 虚拟 处 理 器 给 应 用 程 
序 。 应 用 程序 在 这 个 新 的 虚拟 处 理 器 上 运行 回调 处 理 程序 ， 它 保存 阻塞 线程 的 状态 ， 并 释放 
阻塞 线程 运行 的 虚拟 处 理 器 。 接 着 ， 回 调处 理 程序 调度 另 一 个 适合 在 新 的 虚拟 处 理 器 上 运行 
的 线程 ， 当 阻塞 线程 等 待 的 事件 发 生 时 ， 内 核 向 线程 库 发 出 另 一 个 回调 ， 通 知 它 先 前 阻塞 的 
线程 现在 有 资格 运行 了 。 该 事件 的 回调 处 理 程序 也 需要 一 个 虚拟 处 理 器 ， 内 核 可 能 分 配 一 个 
新 的 虚拟 处 理 器 ， 或 抢占 一 个 用 户 线程 并 在 其 虚拟 处 理 器 上 运行 回调 处 理 程 序 。 在 非 阻 塞 线 
程 有 资格 运行 后 ， 应 用 程序 在 可 用 虚拟 处 理 器 上 运行 符合 条 件 的 线程 。 


4.7 操作 系统 例子 


至 止 ， 我 们 讨论 了 有 关 线 程 的 一 些 概念 和 问题 。 在 结束 本 章 时 ， 我 们 探讨 Windows 和 
Linux 系统 是 如 何 实 现 线程 的 。 


4.7.1 Windows 线程 


Windows API 是 Microsoft 操作 系统 家 族 (Windows 98, NT, 2000, XP 以 及 Windows 7 ) 
的 主要 API, 事实 上 ， 本 节 所 讨论 的 很 多 内 容 都 适用 于 整个 Windows 操作 系统 家 族 。 

每 个 Windows 应 用 程序 按 单独 进程 来 运行 ， 每 个 进程 可 以 包括 一 个 或 多 个 线程 。4.4.2 
节 讨 论 创 建 线程 的 Windows API。 此 外 ，Windows 使 用 4.3.2 节 所 述 的 一 对 一 映射 ， 即 每 个 
用 户 级 线程 映射 到 一 个 相关 的 内 核 线程 。 

线程 一 般 包 括 如 下 部 件 : 

e 线程 I[D， 用 于 唯一 标识 线程 。 

se 寄存 器 组 ， 用 于 表示 处 理 器 状态 

e 用 户 堆 栈 ， 以 供 线程 在 用 户 模式 下 运行 ;内 核 堆 栈 ， 以 供 线程 在 内 核 模 式 下 运行 。 

e 私有 存储 区 域 ， 用 于 各 种 运行 时 库 和 动态 链接 库 (DLL). 
寄存 器 组 、 堆 栈 和 私有 存储 区 域 ， 通 常 称 为 线程 上 下 文 (context). 

线程 的 主要 数据 结构 包括 : 

e ETHREAD: 执行 线程 块 。 

e KTHREAD: 内 核 线 程 块 。 

e TEB: 线程 环境 块 。 

ETHREAD 主要 部 件 包 括 : 线程 所 属 进程 的 指针 、 线 程控 制 开 始 的 程序 的 地 址 及 对 应 
KTHREAD 的 指针 等 。 

KTHREAD 包括 线程 的 调度 和 同步 信息 。 另 外 ，KTHREAD 也 包括 内 核 堆 栈 (以 供 线程 
在 内 核 模式 下 运行 ) 和 TEB 的 指针 。 
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ETHREAD 和 KTHREAD 完全 位 于 内 核 空 间 ; 这 意味 着 只 有 内 核 可 以 访问 它们 。TEB 
是 个 用 户 空间 数据 结构 ， 以 供 线程 在 用 户 模 式 下 运行 时 访问 。TEB 除了 包括 许多 其 他 域外 ， 
还 包括 线程 标识 符 、 用 户 模式 堆栈 以 及 用 于 线程 本 地 存储 的 数组 等 。Windows 线程 的 结构 如 
图 4-14 所 示 。 


内 核 空间 用 户 空间 
图 4-14 Windows 线程 的 数据 结构 





4.7.2 Linux 线程 


正如 第 3 章 所 述 ，Linux 通过 系统 调用 fork() 提供 进程 复制 的 传统 功能 。 另 外 ，Linux 通过 
系统 调用 clone() 也 提供 创建 线程 的 功能 。 然 而 ，Linux 并 不 区 分 进程 和 线程 。 事 实 上 ，Linux 
在 讨论 程序 的 控制 流 时 ， 通 常 采 用 任务 (task) 一 词 ， 而 非 进 程 (process) 或 线程 
(thread). 
在 调用 clone() 时 ， 需 要 传递 一 组 标志 ， 
以 便 确定 父 任 务 与 子 任务 如 何 共 享 。 有 些 标 
志 ， 如 图 4-15 所 示 。 例 如 ， 如 果 将 CLONE_FS、 
CLONE_VM, CLONE_SIGHAND 和 CLONE_FILES 
标志 传递 给 clone() ， 那 么 父 任务 和 子 任务 将 
共享 相同 的 文件 系统 信息 (如 当前 工作 目录 )、 
相同 的 内 存 空间 、 相 同 的 信号 处 理 程序 和 相同 
087) 的 打开 文件 集 。 采 用 这 种 方式 使 用 clone() 相当 于 本 章 所 述 的 线程 创建 ， 因 为 父 任 务 和 子 
任务 共享 大 部 分 的 资源 。 不 过 ， 如 果 当 调用 clone() 时 没有 设置 这 些 标志 ， 那 么 不 会 发 生 
任何 共享 ， 进 而 类 似 于 系统 调用 fork() 的 功能 。 
由 于 Linux 内 核 的 任务 表达 方式 ， 可 以 有 不 同 的 共享 层次 。 系 统 内 的 每 个 任务 都 有 一 
个 唯一 内 核 数 据 结 构 ( struct task_struct)， 这 个 数据 结构 并 不 保存 任务 数据 ， 而 是 包含 
指向 其 他 存储 这 些 数据 的 数据 结构 的 指针 ， 用 于 表示 打开 文件 列表 、 信 号 处 理 的 信息 和 虚拟 





esi Leah adil, 


图 4-15 调用 clone() 时 传递 的 一 些 标志 


3 


内 存 等 。 当 调 用 fork() 时 ,创建 的 新 任务 具有 父 进程 的 所 有 相关 数据 结构 的 副本 。 当 调用 
clone() 系统 调用 时 ， 也 创建 了 新 任务 。 不 过 ， 新 任务 并 不 具有 所 有 数据 结构 的 副本 ; 新任 
F, 根据 传递 给 clone() 的 标志 组 ， 指 向 (point to) 父 任务 的 数据 结构 。 


4.8 小 结 


线程 是 进程 内 的 控制 流 。 多 线程 进程 在 同一 地 址 空间 内 包括 多 个 不 同 的 控制 流 。 多 线程 
的 优点 包括 : 用 户 响 应 的 改进 、 进 程 内 资源 的 共享 、 经 济 和 可 扩展 性 的 因素 (如 更 有 效 地 使 
用 多 个 处 理 核 )。 

用 户 线 程 对 程序 员 来 说 是 可 见 的 ， 而 对 内 核 来 说 是 未 知 的 。 操 作 系 统 支 持 和 管理 内 核 级 
线程 。 通 常 ， 用 户 线 程 与 内 核 线程 相 比 ， 创 建 和 管理 要 更 快 ， 因 为 它 并 不 需要 内 核 干 预 。 

三 种 不 同类 型 模型 关联 用 户 线程 和 内 核 线程 。 多 对 一 模型 将 多 个 用 户 线程 映射 到 一 个 内 
核 线程 ; 一 对 一 模型 将 每 个 用 户 线程 映射 到 一 个 对 应 内 核 线 程 ; 多 对 多 模型 将 多 个 用 户 线程 
在 同样 (或 更 少 ) 数量 的 内 核 线程 之 间 切 换 。 

大 多 数 现 代 操 作 系 统 ， 如 Windows, Mac OS X, Linux 和 Solaris 等 ， 都 对 线程 提供 内 
核 支持 。 

线程 库 为 应 用 程序 员 提 供 创建 和 管理 线程 的 API。 和 常用 的 主要 线程 库 有 三 个 : POSIX 
Pthreads 、Windows 线程 和 Java 线程 。 

除了 采用 线程 库 API 来 显 式 创建 线程 ， 我 们 也 可 使 用 隐 式 线程 ， 这 种 线程 的 创建 和 管 
理 交 由 编译 器 和 运行 时 库 来 完成 。 隐 式 线 程 方法 包括 : 线程 池 、OpenMP 和 Grand Central 
Dispatch 等 。 

多 线程 程序 为 程序 员 带 来 了 许多 挑战 ， 包 括 fork() 和 exec() 系统 调用 的 语义 。 其 他 
问题 包括 信和 号 处 理 、 线 程 撤销 、 线 程 本 地 存储 和 调度 激活 等 。 


习题 

41 举 两 个 程序 实例 ， 其 中 多 线程 不 比 单线 程 具 有 更 好 的 性 能 。 

4.2 在 什么 情况 下 ， 采 用 多 内 核 线程 的 多 线程 方法 比 单 处 理 器 系统 的 单线 程 ， 提 供 更 好 的 性 能 ? 

4.3. 在 同一 进程 的 多 线程 之 间 ， 下 列 哪些 程序 状态 部 分 会 被 共享 ? 
a. 寄存 器 值 b. 堆 内 存 c. 全 局 变量 d. 堆栈 内 存 

44 在 多 处 理 器 系统 上 采用 多 个 用 户 级 线程 的 多 线程 解决 方案 ， 比 在 单 处 理 机 系统 上 ， 能 够 提高 更 好 
的 性 能 吗 ?” 请 解释 。 

4.5 第 3 章 讨 论 了 Google 的 Chrome 浏览 器 ， 以 及 在 单独 进程 中 打开 每 个 新 网 站 的 做 法 。 如 果 
Chrome 设计 成 在 单独 线程 中 打开 每 个 新 网 站 ,那么 会 有 同样 的 好 处 么 ”请 解释 。 

4.6 有 可 能 有 并 发 但 无 并 行 吗 ? 请 解释 。 

4.7 设 有 一 个 应 用 ， 其 60% 为 并 行 部 分 ， 而 处 理 核 数量 分 别 为 (a) 2 个 和 (Cb) 4 个 。 利 用 Amdahl 定 
律 ， 计 算 加 速 增 益 。 

4.8 ”确定 下 列 问题 是 任务 并 行 性 还 是 数据 并 行 性 : 
e 习题 4.16 所 述 的 多 线程 统计 程序 
e 本 章 项 目 1 所 述 的 多 线程 的 Sudoku 验证 器 
© 本 章 项 目 2 所 述 的 多 线程 排序 程序 
e 4.1 节 所 述 的 多 线程 Web 服务 器 
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4.9 


4.10 


4.11 


4.12 


具有 2 个 双核 处 理 器 的 系统 有 4 个 处 理 核 可 用 于 调度 。 这 个 系统 有 一 个 CPU 密集 型 应 用 程序 运 
行 。 在 程序 启动 时 ， 所 有 输入 通过 打开 一 个 文件 而 读 人 。 同 样 ， 在 程序 终止 之 前 ， 所 有 程序 输出 
结果 ， 都 写 和 一 个 文件 。 在 程序 启动 和 终止 之 间 ， 该 程序 为 CPU 密集 型 的 。 你 的 任务 是 通过 多 
线程 技术 来 提高 这 个 应 用 程序 的 性 能 。 这 个 应 用 程序 运行 在 采用 一 对 一 线程 模型 的 系统 (每 个 用 
户 线程 映射 到 一 个 内 核 线程 )。 
© 你 将 创建 多 少 个 线程 ， 用 于 执行 输入 和 输出 ? 请 解释 。 
© 你 将 创建 多 少 个 线程 ， 用 于 应 用 程序 的 CPU 密集 型 部 分 ? 请 解释 。 
考虑 下 面 的 代码 段 : 
pia pid; 
pid = fork(); 
if (pid == 0) { /* child process */ 

fork (); 

thread_create( .. .); 
re 
a. 创建 了 多 少 个 单独 进程? 
b. 创建 了 多 少 个 单独 线程 ? 
如 4.7.2 节 所 述 ，Linux 并 不 区 分 进程 和 线程 。 相 反 ，Linux 采用 同样 的 方式 对 待 它们 ; 根据 系 
统 调用 clone O 的 传递 标志 组 合 ， 一 个 任务 可 能 类 似 于 一 个 进程 或 一 个 线程 。 然 而 ， 其 他 操作 
系统 ， 如 Windows， 区 别 对 待 进程 和 线程 。 通 常 ， 对 这 类 系统 ， 每 个 进程 的 数据 结构 会 包含 同 
属 该 进程 的 多 个 线程 的 指针 。 比 较 内 核 的 进程 与 线程 的 这 两 种 建 模 方法 。 
如 图 4-16 所 示 的 程序 采用 Pthreads API。 该 程序 的 LINE C 和 LINE P 的 输出 分 别 是 什么 ? 


#include <pthread.h> 
#include <stdio.h> 


int value = 0; 
void *runner(void *param); /* the thread */ 


int main(int argc, char *argv[]) 


pidt pid; 
pthread_t tid; 
pthread attr t attr; 


pid = fork(); 


if (pid == 0) { /* child process */ 

pthread attr_init (&attr); 

pthread create(&tid,&attr,runner,NULL); 

pthread_join(tid,NULL) ; 

printf("CHILD: value = 4d",value); /* LINE C */ 
else if (pid > 0) { /* parent process */ 

wait (NULL) ; 

printf ("PARENT: value = %d",value); /* LINE P */ 


} 


void *runner(void *param) { 
value = 5; 
pthread_exit (0); 





图 4-16 习题 4-12 的 C 程序 


4.13 


4.14 
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设 有 一 个 多 核 系 统 和 一 个 多 线程 程序 ， 该 程序 采用 多 对 多 线程 模型 来 编写 。 设 系统 内 的 用 户 级 
线程 数量 大 于 处 理 核 数量 。 讨 论 以 下 情况 的 性 能 影响 。 

a. 分 配给 程序 的 内 核 线程 数量 小 于 处 理 核 数量 。 

b. 分 配给 程序 的 内 核 线程 数量 等 于 处 理 核 数量 。 

c. 分 配给 程序 的 内 核 线程 数量 大 于 处 理 核 数量 ， 但 小 于 用 户 级 线程 数量 。 

Pthreads 提供 API 以 便 管理 线程 撤销 。 这 个 函数 pthread_setcancelstate() 用 于 设置 撤销 状 
态 。 它 的 原型 如 下 : 

pthread_setcancelstate(int state, int *oldstate) 

这 个 状态 有 两 个 可 能 值 : PTHREAD_CANCEL_ENABLE (线程 撤销 禁用 ) #1 PTHREAD_CANCEL_ 
DISABLE (线程 撤销 启用 )。 

采用 图 4-17 所 示 的 代码 段 ， 提 供 两 个 操作 的 实例 ， 用 于 禁用 和 启用 线程 撤销 。 


int oldstate; 


pthread_setcancelstate(PTHREAD_CANCEL_DISABLE, &oldstate) ; 


/* What operations would be performed here? */ 


pthread_setcancelstate(PTHREAD_CANCEL ENABLE, &oldstate) ; 


图 4-17 习题 4-14 的 C 程序 





编程 题 


4.15 


4.16 


4.17 


修改 第 3 章 的 编程 题 3.13 (这 是 一 个 pid 管理 器 的 设计 问题 )。 这 个 修改 包括 编写 一 个 多 线程 
程序 ， 以 测试 你 的 习题 3.13 的 解决 方案 。 你 将 创建 多 个 线程 ， 如 100 个 ， 每 个 线程 会 请 求 一 
个 pid， 睡 眠 一 个 随机 时 间 ， 再 释放 pid。( 睡 眠 一 个 随机 时 间 近 似 典 型 的 pid 使 用 : 每 个 进程 会 
分 配 到 一 个 pid， 进 程 运行 再 终止 ， 当 进程 终止 时 会 释放 pid.) 对 于 UNIX 和 Linux 系统 ， 睡 
眠 是 通过 函数 sleep() 来 完成 的 ， 其 参数 为 用 整数 表示 的 睡眠 秒 数 。 这 个 问题 将 在 第 6 章 再 次 
修改 。 

编写 一 个 多 线程 程序 ， 计 算 一 组 数字 的 多 种 统计 值 。 这 个 程序 通过 命令 行 传递 一 组 数字 ， 然 后 
创建 三 个 单独 的 工作 线程 。 第 一 个 线程 求 数字 的 平均 值 ， 第 二 个 线程 求 最 大 值 ， 第 三 个 线程 求 
最 小 值 。 例 如 ， 假 设 你 的 程序 被 传递 了 如 下 整数 ; 


90 81 78 95 79 72 85 
程序 将 会 输出 : 


The average value is 82 
The minimum value is 72 
The maximum value is 95 


表示 平均 值 、 最 小 值 和 最 大 值 的 变量 将 会 作为 全 局 变量 。 工 作 线程 将 会 设置 这 些 值 ; 当 工作 线 
程 退 出 时 ， 父 线程 将 输出 这 些 值 。( 显 然 ， 我 们 可 以 明显 扩展 这 个 程序 ， 以 便 求 出 其 他 统计 值 ， 
如 中 位 数 和 标准 偏差 。) 

计算 n 的 一 个 有 趣 方法 是 ， 使 用 一 个 称 为 Monte Carlo 的 技术 ， 这 种 技术 涉及 随机 。 该 技术 工 
作 如 下 : 假设 有 一 个 圆 ， 它 内 要 一 个 正方 形 ， 如 图 4-18 所 示 。( 假 设 这 个 圆 的 半径 为 1。) 首先 ， 
通过 E, y) 坐标 生成 一 系列 的 随机 点 。 这 些 点 应 在 正方 形 内 。 在 这 些 随机 产生 的 点 中 ， 有 的 会 
落 在 圆 内 。 接着 ,根据 下 面 公式 ,估算 oo 
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aw =4x (HAN RH) /( 总 的 点 数 ) 

编写 一 个 多 线程 版 的 这 个 算法 ， 它 创建 一 个 单 
独 线 程 以 产生 一 组 随机 点 。 该 线程 计算 圈 内 点 (-1, 1) qm 
的 数量 ， 并 将 结果 存储 到 一 个 全 局 变量 。 当 这 
个 线程 退出 时 ， 父 线程 将 计算 并 输出 站 的 估 
计 值 。 用 生成 的 随机 点 的 数量 做 试验 还 是 值得 
的 。 作 为 一 般 性 规律 ， 点 的 数量 越 大 ， 也 就 越 
接近 ma 
在 与 本 书 配 套 的 可 下 载 的 源 代码 中 ， 我 们 提 
供 了 一 个 示例 程序 ， 它 提供 了 一 种 技术 ， 用 
于 产生 随机 数 并 判定 随机 点 (x,y) 是 否 落 在 
圆 内 。 
对 采用 Monte Carlo 方法 估算 n 的 细节 有 兴趣 的 读者 ， 可 参考 本 章 末 尾 的 参考 文献 。 在 第 6 章 ， 
我 们 使 用 那 章 的 相关 材料 来 修改 这 个 习题 。 

4.18 重复 习题 4.17， 但 不 是 使 用 一 个 单独 线程 来 生成 随机 点 ， 而 是 采用 OpenMP 并 行 化 点 的 生成 。 
TER: 不 要 把 ow 的 计算 放 在 并 行 区 域 ， 因 为 你 只 要 计算 m 一 次 。 

4.19 ”编写 一 个 多 线程 程序 ， 以 输出 素数 。 这 个 程序 应 工作 如 下 : 用 户 运 行 这 个 程序 ， 并 将 在 命令 行 
上 输入 一 个 数字 。 该 程序 将 创建 一 个 单独 线程 ， 输 出 小 于 或 等 于 用 户 输入 数字 的 所 有 素数 。 

4.20 “修改 基于 套 接 字 的 日 期 服务 器 (第 3 章 图 3-21 )， 以 便服 务 器 在 一 个 单独 线程 中 处 理 每 个 客户 端 





(i1) 





(-1, -1)¢ (a, <1) 


图 4-18 估算 m 的 Monte Carlo 技术 


请 求 。 
4.21 Fibonacci 序列 为 0，1，1，2，3，5，8，…。 形 式 上 ， 它 可 以 表示 为 
fibp= 0 
fib; = 1 


fib, = fib,..+fib,.2 
编写 一 个 多 线程 程序 来 生成 Fibonacci 序 列 。 这 个 程序 工作 如 下 : 在 命令 行 输入 需要 生成 
Fibonacci 序列 的 长 度 ; 然后 创建 一 个 新 线程 来 产生 Fibonacci 数 ， 把 这 个 序列 放 到 线程 可 以 共 
享 的 数据 结构 (一 种 最 方便 的 数据 结构 可 能 是 数组 ); 当 线 程 完成 执行 后 ， 父 线程 将 输出 由 子 线 
程 生成 的 序列 。 由 于 在 子 线程 结束 前 ， 父 线程 不 能 输出 Fibonacci 序列 ， 因 此 父 线 程 应 等 待 子 线 
程 的 结束 ， 这 可 采用 4.4 节 所 述 的 技术 。 
4.22 第 3 章 的 习题 3.18 采用 Java 线程 API 来 设计 一 个 回声 服务 器 ， 但 是 这 个 服务 器 是 单线 程 的 ， 即 
服务 器 在 当前 客户 退出 之 前 ， 不 能 对 当前 并 发 的 echo 客户 进行 响应 。 修 改 习 题 3.18 的 解答 ， 以 
使 echo 服务 器 通过 单独 线程 来 服务 每 个 客户 。 
编程 项 目 
项 目 1, 数 独 解决 方案 验证 器 
AX SK GH ( Sudoku puzzle) 采用 9x9 网 格 ， 其 中 每 行 、 每 列 以 及 每 3x3 个子 网 格 (有 9 个 ) 都 
要 包括 所 有 数字 1 ~ 9。 图 4-19 显示 了 数 独 谜 题 的 一 个 有 效 例子 。 这 个 项 目 包 括 设计 一 个 多 线程 应 用 
程序 ， 以 判定 数 独 谜 题 的 解决 是 否 有 效 。 


这 个 多 线程 应 用 程序 有 多 种 不 同 设计 。 这 里 建议 一 种 方案 : 通过 创建 线程 ， 检 查 如 下 
条 件 : 
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e 一 个 线程 ， 用 于 检查 每 列 包含 数字 1 一 9 

e 一 个 线程 ， 用 于 检查 每 行 包 含 数字 1 一 9 

© 9 个 线程 ， 用 于 检查 每 3 x 3 个 子 网 格 包含 数字 1 一 9 

这 总 共 创 建 了 11 个 单独 的 线程 ， 以 验证 数 独 谜 题 。 然 而 ,你 也 
当然 可 以 为 这 个 项 目 创建 更 多 线程 。 例 如 ， 不 是 创建 一 个 线程 来 检查 
9 列 ， 而 是 创建 9 个 线程 以 便 分 别 检查 每 列 。 
将 参数 传 给 每 个 线程 

父 线 程 创建 工作 线程 ， 并 将 所 要 检查 数 独 谜 题 的 位 置 传 给 每 个 工 。 [于 aaa 
作 线 程 。 这 步 需 要 传递 多 个 参数 到 每 个 线程 。 最 简单 的 方法 是 : 采用 Et aaa 
struct 创建 一 个 数据 结构 。 例 如 ， 为 了 线程 的 验证 ， 可 用 包括 行 和 WER Fa nd edie KA Bd 
列 的 数据 结构 来 传递 参数 : 14-19 9x9 数 独 的 解答 


/* structure for passing data to threads */ 
typedef struct 


int row; 
int column; 
} parameters; 


Pthreads 和 Windows 程序 的 工作 线程 创建 类 似 如 下 代码 所 示 : 
parameters *data = (parameters *) malloc(sizeof (parameters)); 
data->row = 1; 

data->column = 1; 

/* Now create the thread passing it data as a parameter */ 


指针 data 会 被 传 到 线程 创建 函数 pthread_create() (Pthreads) 或 CreateThread() (Windows), %& 
后 线程 创建 函数 再 将 data 作为 参数 ,传递 到 作为 单独 线程 来 运行 的 函数 。 
将 结果 返回 给 父 线程 

每 个 工作 线程 被 分 配 一 个 任务 ， 以 判定 数 独 谜 题 的 特定 区 域 是 否 有 效 。 一 旦 工作 线程 执行 了 这 个 
检查 ， 它 就 将 结果 传 给 父 线程 。 处 理 这 个 问题 的 一 个 好 方法 就 是 : 创建 一 个 整数 的 数组 ， 这 些 值 对 每 个 
线程 都 是 可 见 的 。 这 个 数组 的 每 个 索引 i 对 应 于 第 i 个 工作 线程 的 结果 。 如 果 一 个 工作 线程 将 它 的 值 设 
置 为 1， 这 表示 它 检查 的 数 独 迹 题 的 区 域 是 有 效 的 ; 为 0 的 值 表示 无 效 。 当 所 有 工作 线程 完成 后 ， 父 线 
程 检 查 结果 数组 中 的 每 项 ， 以 判定 数 独 谜 题 是 否 有 效 。 


项 目 2: 多 线程 排序 应 用 程序 


编写 一 个 多 线程 排序 程序 ， 它 工作 如 下 : 一 个 整数 列表 分 为 两 个 大 小 相等 的 较 小 子 列表 。 两 个 单 
独 线程 (我们 称 它们 为 排序 线程 ) 采用 你 所 选择 的 算法 ， 
对 两 个 子 列表 进行 排序 。 这 两 个 子 列表 ， 由 第 三 个 线程 12, 19,3, 18, 4,2, 6 1 
( 称 为 合并 线程 ) 合并 成 一 个 已 排 好 序 的 线程 。 ma/ 

因为 全 局 数据 在 所 有 线程 中 都 是 共享 的 ， 也 许 最 
简单 的 设置 数据 的 方法 是 创建 一 个 全 局 数组 。 每 个 排序 1 
线程 对 这 个 数组 的 一 半 进 行 排序 。 还 要 创建 第 二 个 全 局 ie Ya 
的 整数 的 数组 ， 它 与 第 一 个 全 局 数组 一 样 大 。 合 并 线程 合并 线程 
会 合并 两 个 子 列表 到 第 二 个 数组 。 这 个 程序 的 原理 如 
图 4-20 所 示 。 排序 列表 

这 个 编程 项 目 需要 传递 参数 给 每 个 排序 线程 。 特 图 4.20 多 线程 排序 
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别 地 ， 有 必要 确定 哪个 线程 应 从 哪个 索引 开始 排序 。 关 于 传递 线程 参数 的 详细 信息 ， 请 参照 项 目 1 的 
说 明 。 
当 所 有 排序 线程 退出 后 ， 父 线程 会 输出 排 好 序 的 数组 。 


推荐 读物 

线程 历史 较 长 : 开始 在 编程 语言 中 作为 “廉价 并 发 ”; 后 来 作为 “ 轻 量 级 进程 ， 早 期 例子 包括 
Thoth 系统 ( Cheriton 等 (1979 )) 和 Pilot 系统 (Redell 等 (1980 ))。Binding (1985) 讨论 了 将 线程 
移 到 UNIX 内 核 。Mach (Accetta # (1986), Tevanian 等 (1987)) 和 V (Cheriton (1988 )) 充分 利 
用 了 线程 ， 最 终 几乎 所 有 主要 操作 系统 都 以 某 种 形式 实现 了 线程 。 

Vahalia ( 1996 ) 论述 了 多 个 版 本 的 UNIX 的 线程 。McDougall 和 Mauro ( 2007 ) 描述 了 Solaris 内 
核 的 线程 发 展 。Russinovich 和 Solomon( 2009 ) 描述 了 Windows 操作 系统 家 族 的 线程 ,Mauerer( 2008 ) 
All Love (2010 ) 解释 了 Linux 如 何 处 理 线程 。Singh (2007 ) 讨论 了 Mac OS X 的 线程 。 

Pthreads 编程 信息 可 参见 Lewis 和 Berg (1998) 以 及 Butenhof (1997). Oaks 和 Wong ( 1999 ) 
以 及 Lewis Ml Berg (2000) 讨论 了 Java 的 多 线程 。Goetz 等 (2006 ) 详细 讨论 了 Java 的 并 发 编程 。 
Hart ( 2005 ) 描述 了 Windows 的 多 线程 。 使 用 OpenMP 的 细节 可 参见 http://openmp.org。 

线程 池 的 最 佳 大 小 的 分 析 可 参见 Ling 等 (2000 )。Anderson 等 ( 1991 ) 最 先 讨 论 了 调度 激活 ; 而 
Williams ( 2002 ) 讨论 了 NetBSD 系统 的 调度 激活 。 

Breshears (2009 ) 和 Pacheco (2011) 详细 讨论 了 并 行 编程 。Hil 和 Marty (2008 ) 分 析 了 多 核 系 
统 的 Amdahl 定律 。 有 关 m 估算 的 Monte Carlo 技术 的 更 多 讨论 参见 http://math.fullerton.edu/mathews/ 
n2003/montecarlopimod.html o 
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第 5 章 | 


Operating System Concepts, Ninth Edition 


进程 调度 


CPU 调度 是 多 道 程序 操作 系统 的 基础 。 通 过 在 进程 间 切 换 CPU， 操 作 系统 可 以 使 得 计算 机 
更 加 高 效 。 本 章 讨论 CPU 调度 的 基本 概念 和 多 个 算法 ， 也 考虑 为 特定 系统 而 选择 算法 的 问题 。 

第 4 章 为 进程 模型 引入 了 线程 。 对 于 支持 线程 的 操作 系统 ， 操 作 系 统 实际 调度 的 是 内 核 
级 线程 而 非 进程 。 不 过 ,术语 进程 调度 (process scheduling) 或 线程 调度 (thread scheduling) 
常常 交替 使 用 。 本 章 在 讨论 一 般 调 度 概 念 时 ， 采 用 进程 调度 ; 在 针对 线程 特定 概念 时 ， 采 用 
线程 调度 。 

本 章 目标 

© 引入 CPU 调度 ， 这 是 多 道 程序 操作 系统 的 基础 。 

© 描述 各 种 CPU 调度 算法 。 

o 讨论 为 特定 系统 选择 CPU 调度 算法 的 评估 标准 。 

© 分 析 多 个 操作 系统 的 调度 算法 。 


5.1 基本 概念 


对 于 单 处 理 器 系统 ， 同 一 时 间 只 有 一 个 进程 可 以 运行 ， 其 他 进程 都 应 等 待 ， 直 到 CPU 

空闲 并 可 调度 为 止 。 多 道 程序 的 目标 是 ， 始 终 允 许 某 个 进程 运行 以 最 大 化 CPU 利用 率 。 这 

种 想法 比较 简单 。 一 个 进程 执行 直到 它 应 等 待 为 止 ， 通 常 等 待 某 个 IO 请 求 的 完成 。 对 于 简 

单 的 计算 机 系统 ，CPU 就 处 于 闲置 状态 。 所 有 这 些 等 待 时 间 就 会 浪费 ， 没 有 完成 任何 有 用 

工作 。 采 用 多 道 程序 ， 我 们 试图 有 效 利用 这 个 时 间 。 多 个 进程 同时 处 于 内 存 。 当 一 个 进程 等 

待 时 ， 操 作 系统 就 从 该 进程 接管 CPU 控制， 并 将 

CPU 交 给 另 一 进程 。 这 种 方式 不 断 重复 。 当 一 个 进 : 

程 必须 等 待 时 ， 男 一 进程 接管 CPU 使 用 权 。 load store CPU 执 行 区 间 
这 种 调度 是 操作 系统 的 基本 功能 。 几 乎 所 有 计 add store 

算 机 资源 在 使 用 前 都 要 调度 。 当 然 ，CPU 是 最 重要 。 ae 






的 计算 机 资源 之 一 。 因 此 ，CPU 调度 是 操作 系统 设 es MO 执行 区 间 

i store increment 

计 的 重要 部 分 。 = ae 
write to file 


5.1.1 CPU-I/O 执行 周期 IO 执行 区 间 
CPU 的 调度 成 功 取决 于 如 下 观察 到 的 进程 属 

He: 进程 执行 包括 周期 (cycle) 进行 CPU 执行 和 04 store aoe 
IO 等 待 。 进 程 在 这 两 个 状态 之 间 不 断交 蔡 。 进 程 。 add store 
执行 从 CPU 执行 (CPU burst) 开始 ， 之 后 VO 执行 。 read from file 
(1/0 burst); 接着 另 一 个 CPU 执行 接着 另 一 个 IO =| eo VO 执行 区 间 
执行 ; 等 等 。 最 终 ， 最 后 的 CPU 执行 通过 系统 请 求 

结束 ， 以 便 终 止 执行 (图 5-1 )。 图 5-1 CPU 执行 和 1/0 执行 的 交替 序列 
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这 些 CPU 执行 时 间 已 大 量 测试 过 。 虽 然 它们 随 进程 和 计算 机 的 不 同 而 变化 很 大 ， 但 是 
它们 的 频率 曲线 类 似 于 图 5-2 所 示 。 该 曲线 通常 为 指数 或 超 指 数 的 形式 ， 具 有 大 量 短 CPU 
执行 和 少量 长 CPU 执行 。1/O 密集 型 程序 通常 具有 大 量 短 CPU 执行 。CPU 密集 型 程序 可 能 
只 有 少量 长 CPU 执行 。 对 于 选择 合适 的 CPU 调度 算法 ， 这 种 分 布 是 很 重要 的 。 


频率 





32 40 


执行 时 间 ( 毫秒 ) 
图 $S-2 CPU 执行 时 间 的 直方 图 


5.1.2 CPU 调度 程序 


每 当 CPU 空闲 时 ， 操 作 系 统 就 应 从 就 绪 队 列 中 选择 一 个 进程 来 执行 。 进 程 选 择 采 用 短 
， 期 调度 程序 ( short-term scheduler) 或 CPU 调度 程序 。 调 度 程序 从 内 存 中 选择 一 个 能 够 执行 
的 进程 ， 并 为 其 分 配 CPU。 

注意 ， 就 绪 队 列 不 必 是 先进 先 出 (FIFO) 队列 。 正 如 在 研究 各 种 调度 算法 时 将 会 看 到 
的 : 就 绪 队 列 的 实现 可 以 是 FIFO 队列 、 优 先 队列 、 树 或 简单 的 无 序 链表 等 。 然 而 ， 在 概念 
上 ， 就 绪 队 列 内 的 所 有 进程 都 要 排队 以 便 等 待 在 CPU 上 和 运行。 队列 内 的 记录 通常 为 进程 控 
制 块 (Process Control Block, PCB), 


5.1.3 抢占 调度 


需要 进行 CPU 调度 的 情况 可 分 为 以 下 四 种 : 
© 当 一 个 进程 从 运行 状态 切换 到 等 待 状态 时 (例如 ，L/O 请 求 ， 或 wait () 调用 以 便 等 
待 一 个 子 进程 的 终止 )。 203 

© 当 一 个 进程 从 运行 状态 切换 到 就 绪 状 态 时 (例如 ， 当 出 现 中 断 时 )。 

o 当 一 个 进程 从 等 待 状态 切换 到 就 绪 状 态 时 (例如 ，LO 完成 )。 

o 当 一 个 进程 终止 时 。 
对 于 第 1 种 和 第 4 种 情况 ， 除 了 调度 没有 选择 。 一 个 新 进程 (如 果 就 绪 队 列 有 一 个 进程 存在 ) 
必须 被 选择 执行 。 不 过 ， 对 于 第 2 种 和 第 3 种 情况 ， 还 是 有 选择 的 。 

如 果 调 度 只 能 发 生 在 第 1 种 和 第 4 种 情况 下 ， 则 调度 方案 称 为 非 抢 占 的 ( nonpreemptive ) 
HERI (cooperative); 和 否则， 调度 方案 称 为 抢占 的 (preemptive )。 在 非 抢占 调度 下 ， 一 
且 某 个 进程 分 配 到 CPU， 该 进程 就 会 一 直 使 用 CPU， 直 到 它 终止 或 切换 到 等 待 状态 。 
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Windows 3.x 就 使 用 这 种 调度 方法 。Windows 95 引入 抢占 调度 ， 所 有 之 后 的 Windows 操作 
系统 都 使 用 了 抢占 调度 。Macintosh 操作 系统 Mac OS X 采用 抢占 调度 ， 而 之 前 的 Macintosh 
操作 系统 采用 协作 调度 。 协 作 调度 在 有 些 硬件 平台 上 是 唯一 的 方法 ， 因 为 它 不 需要 特殊 硬件 
(如 定时 器 ) 来 支持 抢占 调度 。 

不 过 ， 当 多 个 进程 共享 数据 时 ， 抢 占 调度 可 能 导致 竞争 情况 。 假 设 两 个 进程 共享 数据 。 
当 第 一 个 进程 正在 更 新 数据 时 ， 它 被 抢占 以 便 第 二 个 进程 能 够 运行 。 然 后 ， 第 二 个 进程 可 能 
试图 读数 据 ， 但 是 这 时 该 数据 处 于 不 一 致 的 状态 。 这 一 问题 将 在 第 6 章 中 详细 讨论 。 

抢占 也 影响 操作 系统 的 内 核 设计 。 在 处 理 系统 调用 时 ， 内 核 可 能 为 进程 而 忙于 某 个 活 
动 。 这 些 活 动 可 能 涉及 改变 重要 的 内 核 数 据 (如 IO 队列 )。 如 果 一 个 进程 在 进行 这 些 修改 
时 被 抢占 ， 并 且 内 核 (或 设备 驱动 ) 需要 读 取 或 修改 同样 的 结构 ,那么 会 有 什么 结果 呢 ? 肯 
定 导 致 混乱 。 有 的 操作 系统 (包括 大 多 数 UNIX 系统 ) 这 样 处 理 问 题 : 在 上 下 文 切换 前 ， 等 
待 系统 调用 的 完成 ， 或 者 等 待 IO 阻塞 的 发 生 。 这 种 方案 确保 内 核 结 构 的 简单 ， 这 是 因为 在 
内 核 数 据 结构 处 于 不 一 致 状态 时 ， 内 核 不 会 抢占 进程 。 遗 憾 的 是 ， 这 种 内 核 执行 模式 对 于 实 
时 计算 的 支持 较 差 (实时 系统 的 任务 应 在 给 定时 间 内 执行 完成 )。5.6 节 探 讨 实时 系统 的 调度 
需求 。 

因为 根据 定义 中 断 可 能 随时 发 生 ， 而 且 不 能 总 是 被 内 核 所 忽视 ， 所 以 受 中 断 影 响 的 代码 
段 应 加 以 保护 ， 从 而 避免 同时 使 用 。 操 作 系统 需要 几乎 任何 时 候 都 能 接受 中 断 ， 否 则 输入 会 被 
丢失 或 者 输出 会 被 改写 。 为 了 这 些 代码 段 不 被 多 个 进程 同时 访问 ， 在 进入 时 禁用 中 断 而 在 退出 
时 启用 中 断 。 重 要 的 是 ， 要 注意 禁用 中 断 的 代码 段 并 不 经 常 发 生 ， 而 且 常 常 只 有 少量 指令 。 


5.1.4 调度 程序 


与 CPU 调度 功能 有 关 的 另 一 个 组 件 是 调度 程序 (dispatcher)。 调 度 程序 是 一 个 模块 ， 用 
来 将 CPU 控制 交 给 由 短期 调度 程序 选择 的 进程 。 这 个 功能 包括 : 

e 切换 上 下 文 。 

e 切换 到 用 户 模 式 。 

。 跳 转 到 用 户 程序 的 合适 位 置 ， 以 便 重 新 启动 程序 。 
调度 程序 应 尽 可 能 快 ， 因 为 在 每 次 进程 切换 时 都 要 使 用 。 调 度 程 序 停止 一 个 进程 而 启动 另 一 
个 所 需 的 时 间 称 为 调度 延迟 (dispatch latency). 


5.2 调度 准则 
不 同 的 CPU 调度 算法 具有 不 同属 性 ， 选 择 一 个 特定 算法 会 对 某 些 进程 更 为 有 利 。 为 了 
选择 算法 以 便 用 于 特定 情景 ， 我 们 必须 考虑 各 个 算法 的 属性 。 
为 了 比较 CPU 调度 算法 ， 可 以 采用 许多 比较 准则 。 选 择 哪 些 特 征 来 比较 ， 对 于 确定 哪 
种 算法 是 最 好 的 有 本 质 上 的 区 别 。 这 些 准则 包括 : 
e CPU 使 用 率 : 应 使 CPU 尽 可 能 地 忙碌 。 从 概念 上 讲 ，CPU 使 用 率 从 0% 到 100%. 
对 于 一 个 实际 系统 ， 它 的 范围 应 从 40% ( 轻 负荷 系统 ) 到 90% (重负 荷 系统 )。 
e SUB: 如 果 CPU 忙于 执行 进程 ， 那 么 工作 就 在 完成 。 一 种 测量 工作 的 方法 称 为 知 
吐 量 (throughput)， 它 是 在 一 个 时 间 单 元 内 进程 完成 的 数量 。 对 于 长 进程 ， 吞吐 量 可 
能 为 每 小 时 一 个 进程 ; 对 于 短 进程 ,吞吐 量 可 能 为 每 秒 十 个 进程 。 
e 周转 时 间 : 从 一 个 特定 进程 的 角度 来 看 ， 一 个 重要 准则 是 运行 这 个 进程 需要 多 长 时 
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间 。 从 进程 提交 到 进程 完成 的 时 间 段 称 为 周转 时 间 (turnaround time)。 周 转 时 间 为 所 
有 时 间 段 之 和 ， 包 括 等 待 进入 内 存 、 在 就 绪 队 列 中 等 待 、 在 CPU 上 执行 和 IO 执行 。 

o 等 待 时 间 : CPU 调度 算法 并 不 影响 进程 运行 和 执行 VO 的 时 间 ， 它 只 影响 进程 在 就 
绪 队 列 中 因 等 待 所 需 的 时 间 。 等 待 时 间 为 在 就 绪 队 列 中 等 待 所 花 时 间 之 和 。 

o 响应 时 间 : 对 于 交互 系统 ， 周 转 时 间 不 是 最 佳 准则 。 通 常 ， 进 程 可 以 相当 早 地 产生 输 
出 ， 并 且 继 续 计 算 新 的 结果 同时 输出 以 前 的 结果 给 用 户 。 因 此 ， 另 一 时 间 是 从 提交 
请 求 到 产生 第 一 响应 的 时 间 。 这 种 时 间 称 为 响应 时 间 ， 是 开始 响应 所 需 的 时 间 ， 而 
非 输出 响应 所 需 的 时 间 。 周 转 时 间 通 常 受 输出 设备 速度 的 限制 。 

最 大 化 CPU 使 用 率 和 吞吐 量 ， 并 且 最 小 化 周转 时 间 、 等 待 时 间 和 响应 时 间 ， 这 是 可 取 
的 。 在 大 多 数 情况 下 ， 优 化 的 是 平均 值 。 然 而 ， 在 有 些 情 况 下 ， 优 化 的 是 最 小 值 或 最 大 值 ， 
而 不 是 平均 值 。 例 如 ， 为 了 保证 所 有 用 户 都 能 得 到 好 的 服务 ， 可 能 要 使 最 大 响应 时 间 最 小 。 

对 于 交互 系统 (如 桌面 操作 系统 )， 研 究 人 员 曾 经 建议 最 小 化 响应 时 间 的 方差 比 最 小 化 
平均 响应 时 间 更 为 重要 。 具 有 合理 的 、 可 预见 的 响应 时 间 的 系统 比 平均 值 更 小 但 变化 大 的 系 
统 更 为 可 取 。 不 过 ， 在 CPU 调度 算法 如 何 使 得 方差 最 小 化 的 方面 ， 所 做 的 工作 并 不 多 。 

后 面 讨论 各 种 CPU 调度 算法 时 将 举例 说 明 。 由 于 精确 说 明 需 要 涉及 许多 进程 ， 而 且 每 
个 进程 具有 数 百 个 CPU 执行 和 IO 执行 的 序列 ， 为 了 简化 起 见 ， 在 所 举 的 例子 中 ， 假 设 每 
个 进程 只 有 一 个 CPU 执行 (以 ms 计 )。 所 比较 的 量 是 平均 等 待 时 间 。 更 为 精确 的 评估 机 制 
将 在 5.8 节 中 讨论 。 


5.3 调度 算法 
CPU 调度 处 理 的 问题 是 : 从 就 绪 队 列 中 选择 进程 以 便 为 其 分 配 CPU。CPU 调度 算法 有 
许多 ， 本 节 讨 论 其 中 一 些 。 


5.3.1 先 到 先 服务 调度 


毫 无 疑问 ， 最 简单 的 CPU 调度 算法 是 先 到 先 服务 (First-Come First-Served, FCFS) 调 
度 算 法 。 采 用 这 种 方案 ， 先 请 求 CPU 的 进程 首先 分 配 到 CPU. FCFS 策略 可 以 通过 FIFO BA 
列 容 易 地 实现 。 当 一 个 进程 进入 就 绪 队 列 时 ， 它 的 PCB 会 被 链接 到 队列 尾部 。 当 CPU 空闲 
时 ， 它 会 分 配给 位 于 队列 头 部 的 进程 ， 并 且 这 个 运行 进程 从 队列 中 移 去 。FCFS 调度 代码 编 
写 简单 并 且 理 解 容易 。 

FCFS 策略 的 缺点 是 ， 平 均等 待 时 间 往 往 很 长 。 假 设 有 如 下 一 组 进程 ， 它 们 在 时 间 0 到 
iS, CPU 执行 长 度 按 ms tt: 


进程 执行 时 间 
Py 24 
P, 3 
P; 3 


如 果 进 程 按 Pi. Po. Ps 的 顺序 到 达 ， 并 且 按 FCFS 顺序 处 理 ， 那 么 得 到 如 下 Gantt 图 
(Gantt chart) 所 示 的 结果 (这 种 Gantt 图 为 条 形 图 ， 用 于 显示 调度 情况 ， 包 括 每 个 进程 的 开 
始 与 结束 时 间 ): 
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进程 Pi 的 等 待 时 间 为 0ms， 进 程 P; 的 等 待 时 间 为 24ms， 而 进程 Ps 的 等 待 时 间 为 27ms。 因 
此 , 平均 等 待 时 间 为 (0 + 24 + 27)/3 = 17ms。 不 过 ， 如 果 进 程 按 P.. Ps, Pi 的 顺序 到 达 ， 那 
么 结果 如 以 下 Gantt 图 所 示 : 





现在 平均 等 待 时 间 为 (6 + 0+ 3)/3 = 3ms。 这 个 减少 是 相当 大 的 。 因 此 ，FCFS 策略 的 平均 等 
待 时 间 通 常 不 是 最 小 ， 而 且 如 果 进 程 的 CPU 执行 时 间 变 化 很 大 ， 那 么 平均 等 待 时 间 的 变化 
也 会 很 大 。 

另外 ， 考 虑 动态 情况 下 的 FCFS 调度 性 能 。 假 设 有 一 个 CPU 密集 型 进程 和 多 个 IO 密 
集 型 进程 。 随 着 进程 在 系统 中 运行 ， 可 能 发 生 如 下 情况 : CPU 密集 型 进程 得 到 CPU， 并 使 
用 它 。 在 这 段 时 间 内 ， 所 有 其 他 进程 会 处 理 完 它们 的 IO ， 并 转移 到 就 绪 队 列 来 等 待 CPU。 
当 这 些 进 程 在 就 绪 队 列 中 等 待 时 ，LIO WS. RA, CPU 密集 型 进程 完成 CPU 执行 并 
且 移 到 IO 设备 。 所 有 IO 密集 型 进程 ， 由 于 只 有 很 短 的 CPU 执行 ， 故 很 快 执行 完 并 移 回 
到 IO 队列 。 这 时 ，CPU BSW, Za, CPU 密集 型 进程 会 移 回 到 就 绪 队 列 并 分 配 到 CPU. 
再 次 ， 所 有 IO 进程 会 在 就 绪 队 列 中 等 待 CPU 密集 型 进程 的 完成 。 由 于 所 有 其 他 进程 都 等 
待 一 个 大 进程 释放 CPU， 故 称 之 为 护航 效果 (convoy effect)。 与 让 较 短 进程 先进 行 相 比 ， 
这 会 导致 CPU 和 设备 的 使 用 率 降低 。 

也 要 注意 ，FCFS 调度 算法 是 非 抢 占 的 。 一 旦 CPU 分 配给 了 一 个 进程 ， 该 进程 就 会 使 
用 CPU 直到 释放 CPU 为 止 ， 即 程序 终止 或 是 请 求 VO, FCFS 算法 对 于 分 时 系统 (每 个 用 
户 需 要 定时 得 到 一 定 的 CPU 时 间 ) 是 特别 麻烦 的 。 人 允许 一 个 进程 使 用 CPU 过 长 将 是 个 严重 
错误 。 


5.3.2 最短 作业 优先 调度 


另 一 个 不 同 的 CPU 调度 方法 是 最 短 作 业 优 先 ( Shortest-Job-First，SJF) 调度 算法 。 这 
个 算法 将 每 个 进程 与 其 下 次 CPU 执行 的 长 度 关联 起 来 。 当 CPU 变 为 空 闪 时 ， 它 会 被 赋 给 具 
有 最 短 CPU 执行 的 进程 。 如 果 两 个 进程 具有 同样 长 度 的 CPU 执行 ， 那 么 可 以 由 FCFS 来 处 
理 。 注 意 ， 一 个 更 为 恰当 的 表示 是 最 短 下 次 CPU 执行 ( shortest-next-CPU-burst) 算法 ， 这 
是 因为 调度 取决 于 进程 的 下 次 CPU 执行 的 长 度 ， 而 不 是 其 总 的 长 度 。 我 们 使 用 SJF 一 词 ， 
主要 由 于 大 多 数 教科 书 和 有 关 人 员 都 这 么 称呼 这 种 类 型 的 调度 策略 。 
作为 一 个 SIF 调度 的 例子 , 假设 有 如 下 一 组 进程 ，CPU 执行 长 度 以 ms 计 : 
进程 执行 时 间 
Pi 6 
P: 8 
P3 7 
P, 3 


采用 SIF 调度 ， 就 会 根据 如 下 Gantt 图 来 调度 这 些 进程 ; 
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进程 Pi 的 等 待 时 间 是 3ms， 进 程 Po 的 等 待 时 间 为 16ms， 进 程 Ps 的 等 待 时间 为 9ms， 进 程 
P, 的 等 待 时 间 为 0ms。 因 此 ， 平 均等 待 时 间 为 3 + 16 + 9+ 0)/4 = 7ms。 相 比 之 下 ， 如 果 使 
用 FCFS 调度 方案 ， 那 么 平均 等 待 时 间 为 10.25ms。 

可 以 证 明 SIF 调度 算法 是 最 优 的 。 这 是 因为 对 于 给 定 的 一 组 进程 ，SJF 算法 的 平均 等 待 
时 间 最 小 。 通 过 将 短 进程 移 到 长 进程 之 前 ， 短 进程 的 等 待 时 间 减 少 大 于 长 进程 的 等 待 时 间 增 
加 。 因 而 ， 平 均等 待 时 间 减 少 。 

SJF 算法 的 真正 困难 是 如 何 知道 下 次 CPU 执行 的 长 度 。 对 于 批 处 理 系统 的 长 期 (或 作 
业 ) 调度 ， 可 以 将 用 户 提 交 作 业 时 指定 的 进程 时 限 作 为 长 度 。 在 这 种 情况 下 ， 用 户 有 意 精确 
估计 进程 时 间 ， 这 是 因为 低 值 可 能 意味 着 更 快 的 响应 (过 小 的 值 会 引起 时 限 超 出 错误 ， 进 而 
需要 重新 提交 )。SJF 调度 经 常用 于 长 期 调度 。 

虽然 SIF 算法 是 最 优 的 ,但 是 它 不 能 在 短期 CPU 调度 级 别 上 加 以 实现 ， 因 为 没有 办 法 
知道 下 次 CPU 执行 的 长 度 。 一 种 方法 是 试图 近似 SJF 调度 。 虽 然 不 知道 下 一 个 CPU 执行 的 
长 度 ， 但 是 可 以 预测 它 。 可 以 认为 下 一 个 CPU 执行 的 长 度 与 以 前 的 相似 。 因 此 ， 通 过 计算 
下 一 个 CPU 执行 长 度 的 近似 值 ， 可 以 选择 具有 预测 最 短 CPU 执行 的 进程 来 运行 。 

下 次 CPU 执行 通常 预测 为 以 前 CPU 执行 的 测量 长 度 的 指数 平均 (exponential average). 
我 们 可 以 按 下 面 的 公式 来 计算 指数 平均 。 设 ty A nA CPU 执行 长 度 ， 设 m+ HFR CPU 
执行 预测 值 。 因 此 ,对 于 a, 0 < a < 1， 定义 

Tairi = at, + 1-a@)t, 

值 刀 包括 最 近 信 息 ， 而 六 存储 了 过 去 历史 。 参 数 wx 控制 最 近 和 过 去 历史 在 预测 中 的 权重 。 
WRa=0, 那么 m+i=m， 最 近 历 史 没 有 影响 〈 当 前 情形 为 退 态 ) ; WRa=1, BA tns 
t, RARA CPU 执行 才 重 要 (过 去 历史 被 认为 是 陈旧 的 、 无 关 的 )。 更 为 常见 的 是 ，a = 
1/2， 这 样 最 近 历 史 和 过 去 历史 同样 重要 。 初 始 值 mn 可 作为 常量 或 系统 的 总 体 平 均值 。 图 5-3 
为 一 个 指数 平均 的 例子 ， 其 中 w= 1/2，m= 10。 





CPU 执 行 (1) 6 4 6 4 BE B B 
“猜测 " (tc) 10 8 6 6 5 9 11 12 


图 5-3 下 一 个 CPU 执行 长 度 的 预测 


为 了 理解 指数 平均 行为 ， 通 过 替换 n, IARR mw+1， 从 而 得 到 
Tn+1= Aly + (1-a) at,» + ++ + (1-ayat,; +- + (1-a)"* ro 
通常 ， 由 于 a 和 (1-o) 小 于 1， 所 以 后 面 项 的 权重 比 前 面 项 的 权重 要 小 。 
SJF 算法 可 以 是 抢占 的 或 非 抢 占 的 。 当 一 个 新 进程 到 达 就 绪 队 列 而 以 前 进程 正在 执行 
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时 ， 就 需要 选择 了 。 新 进程 的 下 次 CPU 执行 ， 与 当前 运行 进程 的 尚未 完成 的 CPU 执行 相 
比 ， 可 能 还 要 小 。 抢 占 SIF 算法 会 抢占 当前 运行 进程 ， 而 非 抢占 SIF 算法 会 允许 当前 运行 进 
程 以 先 完成 CPU 执行 。 抢 占 SIF 调度 有 时 称 为 最 短 剩余 时 间 优 先 ( shortest-remaining-time- 
first) 调度 。 

作为 例子 ,假设 有 以 下 4 个 进程 ， 其 CPU 执行 时 间 以 ms it: 








进程 到 达 时 间 执行 时 间 
Py 0 8 

Pı 1 4 

P, 2 9 


Py 3 5 


如 果 进 程 按 给 定时 间 到 达 就 绪 队 列 ， 而 且 需 要 给 定 执行 时 间 ， 那 么 产生 的 抢占 SIF 调度 如 以 
下 Gantt 图 所 示 ， 





进程 Pi 在 时 间 0 开 始 ， 因 为 这 时 只 有 进程 P。 进 程 P; 在 时 间 1 到 达 。 进 程 Pi 剩余 时 间 
(7ms) 大 于 进程 P; 需要 的 时 间 (4ms)， 因 此 进程 Pi 被 抢占 ， 而 进程 P 被 调度 。 对 于 这 个 
例子 ,平均 等 待 时 间 为 [(10-1) + (1-1) + (17-2) + (5-3)]/4 = 26/4 = 6.5ms。 如 果 使 用 非 抢 占 
SJF 调度 ， 那 么 平均 等 待 时 间 为 7.75ms。 


5.3.3 ”优先 级 调度 


SJF 算法 是 通用 优先 级 调度 priority-scheduling) 算法 的 一 个 特例 。 每 个 进程 都 有 一 个 
优先 级 与 其 关联 ， 而 具有 最 高 优先 级 的 进程 会 分 配 到 CPU。 具 有 相同 优先 级 的 进程 按 FCFS 
顺序 调度 。SJF 算法 是 一 个 简单 的 优先 级 算法 ， 其 优先 级 (p) 为 下 次 (预测 的 ) CPU 执行 的 
倒数 。CPU 执行 越 长 ， 则 优先 级 越 小 ; 反之 亦 然 。 

注意 ， 我 们 按照 高 优先 级 和 低 优先 级 讨论 调度 。 优 先 级 通常 为 固定 区 间 的 数字 ， 如 
0 一 7 或 0~4095。 不 过 ， 对 于 0 表示 最 高 还 是 最 低 的 优先 级 没有 定论 。 有 的 系统 用 低 数字 
表示 低 优 先 级 ， 其 他 用 低 数 字 表 示 高 优先 级 。 这 种 差异 可 以 导致 混淆 。 本 书 用 低 数字 表示 高 
优先 级 。 

作为 例子 ,假设 有 如 下 一 组 进程 ， 它 们 在 时 间 0 按 顺序 PP), Pr, ++, Ps 到 达 ， 其 CPU 
执行 时 间 以 ms i; 


进程 执行 时 间 优先 级 
10 
Pı 1 1 
Py 2 4 
P, 1 5 
Ps 5 2 
采用 优先 级 调度 ， 会 按 如 下 Gantt 图 来 调度 这 些 进 程 : 
A See eae A Pl 
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平均 等 待 时 间 为 8.2ms。 

优先 级 的 定义 可 以 分 为 内 部 的 或 外 部 的 。 内 部 定义 的 优先 级 采用 一 些 测 量 数据 来 计算 进 
程 优先 级 。 例 如 ， 时 限 、 内 存 要 求 、 打 开 文 件数 量 和 平均 IO 执行 时 间 与 平均 CPU 执行 之 
比 等 ， 都 可 用 于 计算 优先 级 。 外 部 定义 的 优先 级 采用 操作 系统 之 外 的 准则 ， 如 进程 重要 性 、 
用 于 支付 使 用 计算 机 的 费用 类 型 和 数量 、 赞 助 部 门 、 其 他 因素 (通常 为 政治 ) 等 。 

优先 调度 可 以 是 抢占 的 或 非 抢占 的 。 当 一 个 进程 到 达 就 绪 队 列 时 ， 比 较 它 的 优先 级 与 当 
前 运行 进程 的 优先 级 。 如 果 新 到 达 进 程 的 优先 级 高 于 当前 运行 进程 的 优先 级 ， 那 么 抢占 优先 
级 调度 算法 就 会 抢占 CPU。 非 抢占 优先 级 调度 算法 只 是 将 新 的 进程 加 到 就 绪 队 列 的 头 部 。 

优先 级 调度 算法 的 一 个 主要 问题 是 无 穷 阻 塞 (indefinite blocking) 或 饥饿 ( starvation). 
就 绪 运 行 但 是 等 待 CPU 的 进程 可 以 认为 是 阻塞 的 。 优 先 级 调度 算法 可 让 某 个 低 优先 级 进程 
无 穷 等 待 CPU。 对 于 一 个 超载 的 计算 机 系统 ， 稳 定 的 更 高 优先 级 的 进程 流 可 以 阻止 低 优 先 
级 的 进程 获得 CPU。 一 般 来 说 ， 有 两 种 情况 会 发 生 。 要 么 进程 最 终 会 运行 (在 系统 最 后 为 
轻 负荷 时 ， 如 星期 日 凌晨 2 点 )， 要 么 系统 最 终 裔 省 并 失去 所 有 未 完成 的 低 优先 级 进程 。( 据 
说 ， 在 1973 年 关闭 MIT 的 IBM 7094 时 ， 发 现 有 一 个 低 优先 级 进程 时 在 1967 年 就 已 提交 ， 
但 是 一 直 未 能 运行 。) 

低 优先 级 进程 的 无 穷 等 待 问题 的 解决 方案 之 一 是 老化 (aging)。 老 化 逐渐 增加 在 系统 中 
等 待 很 长 时 间 的 进程 的 优先 级 。 例 如 ， 如 果 优 先 级 为 从 127 ( 低 ) 到 0 (高 )， 那么 可 以 每 15 
分 钟 递减 等 待 进程 的 优先 级 的 值 。 最 终 初始 优先 级 值 为 127 的 进程 会 有 系统 内 最 高 的 优先 
级 ， 进 而 能 够 执行 。 事 实 上 ， 不 会 超过 32 小 时 ， 优 先 级 为 127 的 进程 会 老化 为 优先 级 为 0 
的 进程 。 


5.3.4 轮转 调度 


#648 (Round-Robin, RR) 调度 算法 是 专门 为 分 时 系统 设计 的 。 它 类 似 于 FCFS 调度 ， 
但 是 增加 了 抢占 以 切换 进程 。 将 一 个 较 小 时 间 单 元 定义 为 时 间 量 ( time quantum) 或 时 间 片 
(time slice)。 时 间 片 的 大 小 通常 为 10 ~ 100ms。 就 绪 队 列 作 为 循环 队列 。CPU 调度 程序 循 
环 整 个 就 绪 队 列 ， 为 每 个 进程 分 配 不 超过 一 个 时 间 片 的 CPU, 

为 了 实现 RR 调度 ， 我们 再 次 将 就 绪 队 列 视 为 进程 的 FIFO 队列 。 新 进程 添加 到 就 绪 队 
列 的 尾部 。CPU 调度 程序 从 就 绪 队 列 中 选择 第 一 个 进程 ， 将 定时 器 设置 在 一 个 时 间 片 后 中 
断 ， 最 后 分 派 这 个 进程 。 

接 下 来 ， 有 两 种 情况 可 能 发 生 。 进 程 可 能 只 需 少 于 时 间 片 的 CPU 执行 。 对 于 这 种 情况 ， 
进程 本 身 会 自动 释放 CPU。 调 度 程序 接着 处 理 就 绪 队列 的 下 一 个 进程 。 和 否则 ， 如 果 当 前 运 
行进 程 的 CPU 执行 大 于 一 个 时 间 片 ,那么 定时 器 会 中 断 ， 进 而 中 断 操作 系统 。 然 后 ， 进 行 
上 下 文 切换 ， 再 将 进程 加 到 就 绪 队 列 的 尾部 ， 接 着 CPU 调度 程序 会 选择 就 绪 队 列 内 的 下 一 
个 进程 。 

不 过 ,采用 RR 策略 的 平均 等 待 时 间 通 常 较 长。 假设 有 如 下 一 组 进程 ， 它 们 在 时 间 0 到 
ik, H CPU 执行 以 ms it: 





进程 执行 时 间 
已 24 
Py 3 


P3 3 
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如 果 使 用 4ms 的 时 间 片 ， 那 么 Pi 会 执行 最 初 的 4ms。 由 于 它 还 需要 20ms， 所 以 在 第 一 个 时 
间 片 之 后 它 会 被 抢占 ， 而 CPU 就 交 给 队列 中 的 下 一 个 进程 。 由 于 P; 不 需要 4ms， 所 以 在 其 
时 间 片 用 完 之 前 就 会 退出 。CPU 接着 交 给 下 一 个 进程 ， 即 进程 P;。 在 每 个 进程 都 得 到 了 一 
个 时 间 片 之 后 ，CPU 又 交 给 了 进程 已 以 便 继续 执行 。 因 此 ，RR 调度 结果 如 下 : 





现在 ， 我 们 计算 这 个 调度 的 平均 等 待 时 间 。P 等 待 10-4 = 6ms，P 等 待 4ms， 而 Ps 等 待 
7ms。 因 此 ， 平 均等 待 时 间 为 17/3 = 5.66ms。 

在 RR 调度 算法 中 ,没有 进程 被 连续 分 配 超 过 一 个 时 间 片 的 CPU 除非 它 是 唯一 可 运行 
的 进程 )。 如 果 进 程 的 CPU 执行 超过 一 个 时 间 片 ， 那 么 该 进程 会 被 抢占 ， 并 被 放 回 到 就 绪 队 
列 。 因 此 ，RR 调度 算法 是 抢占 的 。 

如 果 就 绪 队 列 有 nn 个 进程 ,并且 时 间 片 为 a， 那 么 每 个 进程 会 得 到 1/n 的 CPU 时 间 ， 而 
且 每 次 分 得 的 时 间 不 超过 4 个 时 间 单 元 。 每 个 进程 等 待 获得 下 一 个 CPU 时 间 片 的 时 间 不 会 
超过 (zx-1)g 个 时 间 单 元 。 例 如 ， 如 果 有 5 个 进程 ， 并 且 时 间 片 为 20ms， 那 么 每 个 进程 每 
100ms 会 得 到 不 超过 20ms 的 时 间 。 

RR 算法 的 性 能 很 大 程度 取决 于 时 间 片 的 大 小 。 在 一 种 极端 情况 下 ， 如 果 时 间 片 很 大 ， 
那么 RR 算法 与 FCFS 算法 一 样 。 相 反 ， 如 果 时 间 片 很 小 (如 lms)， 那 么 RR 算法 可 以 导致 
大 量 的 上 下 文 切换 。 例 如 ， 假 设 我 们 只 有 一 个 需要 10 个 时 间 单 元 的 进程 。 如 果 时 间 片 为 12 
个 时 间 单 元 ， 那 么 进程 在 一 个 时 间 片 不 到 就 能 完成 ， 而 且 没有 额外 开销 。 如 果 时 间 片 为 6 个 
时 间 单 元 ， 那 么 进程 需要 2 个 时 间 片 ， 并 且 还 有 一 个 上 下 文 切 换 。 如 果 时 间 片 为 1 个 时 间 单 
元 ,那么 就 会 有 9 个 上 下 文 切换 ， 相 应 地 使 进程 执行 更 慢 (图 5-4 )。 


处 理 时 间 = 10 时 间 片 上 下 文 切换 





OP A E AISEE T B 0 
图 5-4 更 小 时 间 片 如 何 增加 上 下 文 切换 


因此 ， 我 们 希望 时 间 片 远大 于 上 下 文 切换 时 间 。 如 果 上 下 文 切 换 时 间 约 为 时 间 片 的 
10%, HAA 10% 的 CPU 时 间 会 浪费 在 上 下 文 切 换 上 。 在 实践 中 ， 大 多 数 现代 操作 系统 的 
时 间 片 为 10 ~ 100ms， 上 下 文 切 换 的 时 间 一 般 少 于 10ms ; 因此 ， 上 下 文 切 换 的 时 间 仅 占 时 
间 片 的 一 小 部 分 。 

周转 时 间 也 依赖 于 时 间 片 大 小 。 正 如 从 图 5-5 中 所 看 到 的 ， 随 着 时 间 片 大 小 的 增加 ， 一 
组 进程 的 平均 周转 时 间 不 一 定 会 改善 。 一 般 情 况 下 ， 如 果 大 多 数 进程 能 在 一 个 时 间 片 内 完 
成 ,那么 平均 周转 时 间 会 改善 。 例 如 ,假设 有 三 个 进程 ， 都 需要 10 个 时 间 音 元。 如果 时 间 
片 为 1 个 时 间 单 元 ， 那么 平均 周转 时 间 为 29 ; 如 果 时 间 片 为 10， 那 么 平均 周转 时 间 会 降 为 
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20; 如 果 再 考虑 上 下 文 切换 时 间 ， 那 么 平均 周转 时 间 对 于 较 小 时 间 片 会 增加 ， 这 是 因为 需要 


更 多 的 上 下 文 切换 。 
尽管 时 间 片 应 该 比 上 下 文 切换 时 间 要 大 ， 但 也 不 能 太 大 。 如 果 时 间 片 太 大 ,那么 RR 调 
度 就 演变 成 了 FCFS 调度 。 根 据 经 验 ，80% 的 CPU 执行 应 该 小 于 时 间 片 。 





时 间 片 
图 5-5 周转 时 间 如 何 随 着 时 间 片 大 小 而 改变 


5.3.5 ”多 级 队列 调度 


在 进程 容易 分 成 不 同 组 的 情况 下 ， 可 以 有 男 一 类 调度 算法 。 例 如 ， 进 程 通常 分 为 前 台 
进程 (foreground process) (或 交互 进程 ) 和 后 台 进程 (background process) (或 批 处 理 进 程 )。 
这 两 种 类 型 的 进程 具有 不 同 的 响应 时 间 要 求 ， 进 而 也 有 不 同调 度 需 要 。 另 外 ， 与 后 台 进 程 相 
比 ， 前 台 进 程 可 能 要 有 更 高 的 优先 级 (外 部 定义 )。 

多 级 队列 (multilevel queue) 调度 算法 将 就 绪 队 列 分 成 多 个 单独 队列 (图 5-6 )。 根 据 进 
程 属性 ， 如 内 存 大 小 、 进 程 优先 级 、 进 程 类 型 等 ,一 个 进程 永久 分 到 一 个 队列 。 每 个 队列 
有 自己 的 调度 算法 。 例 如 ， 可 有 两 个 队列 分 别 用 于 前 台 进程 和 后 台 进 程 。 前 台 队 列 可 以 采用 
RR 算法 调度 ， 而 后 台 队 列 可 以 采用 FCFS 算法 调度 。 

此 外 ， 队 列 之 间 应 有 调度 ， 通 常 采 用 固定 优先 级 抢占 调度 。 例 如 ， 前 台 队 列 可 以 比 后 台 
队列 具有 绝对 的 优先 。 

现在 ， 我 们 看 一 个 多 级 队列 调度 算法 的 实例 ， 这 里 有 五 个 队列 ， 它 们 的 优先 级 由 高 
到 低 : 

e 系统 进程 

e 交互 进程 

o 交互 编辑 进程 

o 批 处 理 进程 

e 学 生 进 程 
每 个 队列 与 更 低层 队列 相 比 具有 绝对 的 优先 。 例 如 ， 只 有 系统 进程 、 交 互 进程 和 交互 编辑 进 
程 队列 都 为 空 ， 批 处 理 队列 内 的 进程 才 可 运行 。 如 果 在 一 个 批 处 理 进程 运行 时 有 一 个 交互 进 
程 进 入 就 绪 队 列 ， 那 么 该 批 处 理 进程 会 被 抢占 。 
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最 高 优先 级 





最 低 优先 级 
图 5-6 多 级 队列 调度 


另 一 种 可 能 是 ， 在 队列 之 间 划 分 时 间 片 。 每 个 队列 都 有 一 定 比 例 的 CPU 时 间 ， 可 用 于 调度 
队列 内 的 进程 。 例 如 ， 对 于 前 台 - 后 台 队 列 的 例子 ， 前 台 队 列 可 以 有 80% 的 CPU 时 间 ， 用 于 在 
进程 之 间 进 行 RR 调度 ， 而 后 台 队 列 可 以 有 20% 的 CPU 时 间 ， 用 于 按 FCFS 算法 来 调度 进程 。 


5.3.6 ”多 级 反馈 队列 调度 


通常 在 使 用 多 级 队列 调度 算法 时 ， 进 程 进入 系统 时 被 永久 地 分 配 到 某 个 队列 。 例 如 ， 如 
果 前 台 和 后 人 台 进 程 分 别 具 有 单独 队列 ， 那 么 进程 并 不 从 一 个 队列 移 到 男 一 个 队列 ， 这 是 因为 
进程 不 会 改变 前 台 或 后 台 的 性 质 。 这 种 设置 的 优点 是 调度 开销 低 ， 缺 点 是 不 够 灵活 。 

相反 ， 多 级 反馈 队列 (multilevel feedback queue) 调度 算法 允许 进程 在 队列 之 间 迁 移 。 这 种 
想法 是 ， 根 据 不 同 CPU 执行 的 特点 来 区 分 进程 。 如 果 进 程 使 用 过 多 的 CPU 时 间 ， 那 么 它 会 被 移 
到 更 低 的 优先 级 队列 。 这 种 方案 将 IO 密集 型 和 交互 进程 放 在 更 高 优先 级 队列 上 。 此 外 ， 在 较 低 
优先 级 队列 中 等 待 过 长 的 进程 会 被 移 到 更 高 优先 级 队列 。 这 种 形式 的 老化 阻止 饥饿 的 发 生 。 

例如 ， 考 虑 一 个 多 级 反馈 队列 的 调度 程序 ， 
它 有 三 个 队列 ， 从 0 到 2 (图 5-7)。 调 度 程序 首 
先 执 行 队 列 0 内 的 所 有 进程 。 只 有 当 队 列 0 为 空 
时 ， 它 才能 执行 队列 1 内 的 进程 。 类 似 地 ， 只 有 
队列 0 和 1 都 为 空 时 ， 队 列 2 的 进程 才能 执行 。 
到 达 队 列 1 的 进程 会 抢占 队列 2 的 进程 。 同 样 ， 
到 达 队 列 0 的 进程 会 抢占 队列 1 的 进程 。 

每 个 进程 在 进入 就 绪 队 列 后 ， 就 被 添加 到 队 
列 0 内 。 队 列 0 内 的 每 个 进程 都 有 8ms 的 时 间 
片 。 如 果 一 个 进程 不 能 在 这 一 时 间 片 内 完成 ， 那 
么 它 就 被 移 到 队列 1 的 尾部 。 如 果 队 列 0 为 空 ， 队 列 1 头 部 的 进程 会 得 到 一 个 16ms 的 时 间 
片 。 如 果 它 不 能 完成 ， 那 么 将 被 抢占 ， 并 添加 到 队列 2。 只 有 当 队 列 0 和 ! 为 空 时 ， 队 列 2 
内 的 进程 才 可 根据 FCFS 来 运行 。 

这 种 调度 算法 将 给 那些 CPU 执行 不 超过 8ms 的 进程 最 高 优先 级 。 这 类 进程 可 以 很 快 得 
到 CPU， 完 成 CPU 执行 ， 并 且 处 理 下 个 IO 执行。 所 需 超过 8ms 但 不 超过 24ms 的 进程 也 
会 很 快 得 以 服务 ,但 是 它们 的 优先 级 要 低 一 点 。 长 进程 会 自动 沉 入 队列 2， 队 列 0 和 1 不 用 





图 5-7 多 级 反馈 队列 
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的 CPU 周期 按 FCFS 顺序 来 服务 。 
通常 ， 多 级 反馈 队列 调度 程序 可 由 下 列 参数 来 定义 ， 
© 队列 数量 。 
© 每 个 队列 的 调度 算法 。 
e 用 以 确定 何 时 升级 到 更 高 优先 级 队列 的 方法 。 
o 用 以 确定 何 时 降级 到 更 低 优先 级 队列 的 方法 。 
e 用 以 确定 进程 在 需要 服务 时 将 会 进入 哪个 队列 的 方法 。 
多 级 反馈 队列 调度 程序 的 定义 使 其 成 为 最 通用 的 CPU 调度 算法 。 通 过 配置 ， 它 能 适应 所 设 
计 的 特定 系统 。 和 遗憾 的 是 ， 由 于 需要 一 些 方 法 来 选择 参数 以 定义 最 佳 的 调度 程序 ， 所 以 它 也 [216 
是 最 复杂 的 算法 。 


5.4 线程 调度 


第 4 章 为 进程 模型 引入 了 线程 ， 还 比较 了 用 户 级 (user-level) 和 内 核 级 ( kernel-level) 
的 线程 。 在 支持 线程 的 操作 系统 上 ， 内 核 级 线程 (而 不 是 进程 ) 才 是 操作 系统 所 调度 的 。 用 
户 级 线程 是 由 线程 库 来 管理 的 ， 而 内 核 并 不 知道 它们 。 用 户 级 线程 为 了 运行 在 CPU 上 ， 
最 终 应 映射 到 相关 的 内 核 级 线程 ， 但 是 这 种 映射 可 能 不 是 直接 的 ， 可 能 采用 轻 量 级 进程 
(LWP)。 本 节 探 讨 有 关 用 户 级 和 内 核 级 线程 的 调度 ， 并 提供 Pthreads 调度 的 具体 实例 。 


5.4.1 竞争 范围 


用 户 级 和 内 核 级 线程 之 间 的 一 个 区 别 在 于 它们 是 如 何 调度 的 。 对 于 实现 多 对 一 (4.3.1 
节 ) 和 多 对 多 (4.3.3 节 ) 模型 的 系统 线程 库 会 调度 用 户 级 线程 ， 以 便 在 可 用 LWP 上 运行 。 这 
种 方案 称 为 进程 竞争 范围 Process-Contention Scope，PCS)， 因 为 竞争 CPU 是 发 生 在 同一 
进程 的 线程 之 间 。( 当 我 们 说 线程 库 将 用 户 线 程 调度 到 可 用 LWP 时 ， 并 不 意味 着 线程 真实 运 
行 在 一 个 CPU 上 。 这 会 需要 操作 系统 调度 内 核 线程 到 物理 CPU.) 为 了 决定 哪个 内 核 级 线程 
调度 到 一 个 处 理 器 上 ， 内 核 采用 系统 竞争 范围 ( System-Contention Scope, SCS) RH SCS 
调度 来 竞争 CPU， 发 生 在 系统 内 的 所 有 线程 之 间 。 采 用 一 对 一 模型 ( 4.3.2 节 ) 的 系统 ， 如 
Windows、Linux 和 Solaris， 只 采用 SCS 调度 。 

通常 情况 下 ，PCS 采用 优先 级 调度 ， 即 调度 程序 选择 运行 具有 最 高 优先 级 的 、 可 运行 的 线 
程 。 用 户 级 线程 的 优先 级 是 由 程序 员 设置 的 ， 并 不 是 由 线程 库 调整 的 ， 尽 管 有 些 线程 库 可 能 允 
许 程序 员 改 变 线程 的 优先 级 。 重 要 的 是 ， 要 注意 到 PCS 通常 允许 一 个 更 高 优先 级 的 线程 来 抢占 
当前 运行 的 线程 ; 不 过 ， 在 具有 相同 优先 级 的 线程 之 间 ， 没 有 时 间 分 片 的 保证 (5.3.4 节 )。 


5.4.2 Pthreads 调度 


4.4.1 节 讨 论 了 Pthreads 的 线程 创建 ， 也 提供 了 一 个 POSIX Pthreads 程序 的 例子 。 现 
在 ， 我 们 强调 在 线程 创建 时 人 允许 指定 PCS BK SCS 的 POSIX Pthreads API。Pthreads 采用 如 
下 竞争 范围 的 值 : 

e PTHREAD SCOPE PROCESS: 按 PCS 来 调度 线程 。 

© PTHREAD_SCOPE_SYSTEM: fk SCS 来 调度 线程 。 

对 于 实现 多 对 多 模型 的 系统 ，PTHREAD_ SCOPE PROCESS 策略 调度 用 户 级 线程 到 可 
HI LWP. LWP 的 数量 通过 线程 库 来 维护 ， 可 能 采用 调度 程序 激活 (4.6.5 节 )。PTHREAD 
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SCOPE_SYSTEM 调度 策略 会 创建 一 个 LWP， 并 将 多 对 多 系统 的 每 个 用 户 级 线程 绑 定 到 
LWP， 实 际 采用 一 对 一 策略 来 映射 线程 。 

Pthreads IPC 提供 两 个 函数 ， 用 于 获取 和 设置 竞争 范围 策略 : 

e pthread_attr_setscope(pthread_attr_t *attr, int scope) 

e pthread_attr_getscope(pthread_attr_t *attr, int *scope) 
ALAARA TS OR ERTS ST. PRA pthread_attr_setscope() 的 第 二 
个 参数 的 值 为 PTHREAD_ SCOPE SYSTEM EÈ PTHREAD SCOPE PROCESS， 指 定 如 何 设 
置 竞争 范围 。 函 数 pthread_attr_getscope() 的 第 二 个 参数 的 值 为 int 值 的 指针 ， 用 于 获 
得 竞争 范围 的 当前 值 。 如 果 发 生 错 误 ， 那 么 这 些 函 数 的 返回 值 为 非 零 。 

图 5-8 演示 了 一 个 Pthreads 调度 API。 这 个 程序 首先 获得 现 有 竞争 范围 ， 并 设置 它 
为 PTHREAD SCOPE SYSTEM。 然 后 ， 它 创建 5 个 单独 线程 ， 并 采用 SCS 调度 策略 来 运 
行 。 注 意 ， 对 于 有 些 系统 ， 只 人 允许 某 些 竞争 范围 的 值 。 例 如 ，Linux 和 Mac OSX 系统 只 允许 
PTHREAD SCOPE SYSTEM. 





| sinctude <pthread.h> 
#include <stdio.h> 
#define NUM_THREADS 5 


int main(int argc, char *argv[]) 
int i, scope; 


pthread_t tid[NUM_THREADS] ; 
pthread_attr_t attr; 





/* get the default attributes */ 
pthread_attr_init (zattr) ; 


/* first inquire on the current scope */ 
if (pthread_attr_getscope(&attr, &scope) != 0) 
fprintf(stderr, "Unable to get scheduling scope\n") ; 
else 
ey a == PTHREAD_SCOPE_PROCESS) 
printf ("PTHREAD_SCOPE_PROCESS") ; 
else if (scope == PTHREAD_SCOPE_SYSTEM) 
printf ("PTHREAD_SCOPE_SYSTEM") ; 
else 
fprintf(stderr, "Illegal scope value.\n"); 





/* set the scheduling algorithm to PCS or SCS */ 
pthread_attr_setscope(&attr, PTHREAD_SCOPE_SYSTEM) ; 


/* create the threads */ 
for (i = 0; i < NUM_THREADS; i++) 
pthread_create(&tid[i] ,’attr,runner,NULL) ; 


/* now join on each thread */ 


for (i = 0; i < NUM_THREADS; i++) 
pthread_join(tid[i], NULL); 


/* Each thread will begin control in this function */ 
void *runner(void *param) 


/* do some work ... */ 


pthread_exit (0) ; 











图 5-8 Pthreads 调度 API 
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5.5 多 处 理 器 调度 


迄今 为 止 ， 我 们 主要 集中 讨论 单 处 理 器 系统 的 CPU 调度 问题 。 如 果 有 多 个 CPU, MA 
载 分 配 (load sharing) 成 为 可 能 ， 但 是 调度 问题 就 相应 地 更 为 复杂 。 许 多 可 能 的 方法 都 已 试 
过 ， 但 与 单 处 理 器 调度 一 样 ， 没 有 最 好 的 解决 方案 。 

这 里 我 们 讨论 多 处 理 器 调度 的 几 个 问题 。 我 们 主要 关注 同 构 系 统 ， 这 类 系统 的 处 理 融 从 
功能 上 来 说 相同 。 这 样 ， 我 们 可 以 用 任何 一 个 处 理 器 来 运行 队列 内 的 任何 进程 。 然 而 ， 请 注 
意 ， 即 使 同 构 多 处 理 器 ， 有 时 也 有 一 些 调度 限制 。 假 设 有 一 个 系统 ， 它 有 一 个 IO 设备 与 其 
某 个 处 理 器 通过 私有 总 线 相连 。 和 希望 使 用 该 设备 的 进程 应 调度 到 该 处 理 器 上 运行 。 


5.5.1 多 处 理 器 调度 的 方法 


对 于 多 处 理 器 系统 ，CPU 调度 的 一 种 方法 是 让 一 个 处 理 器 〈 主 服务 器 ) 处 理 所 有 调 
度 决定 、1/O 处 理 以 及 其 他 系统 活动 ， 其 他 的 处 理 器 只 执行 用 户 代 码 。 这 种 非 对 称 多 处 理 
(asymmetric multiprocessing) 很 简单 ， 因 为 只 有 一 个 处 理 器 访问 系统 数据 结构 ， 减 少 了 数据 
共享 的 需要 。 

第 二 种 方法 是 使 用 对 称 多 处 理 ( Symmetric MultiProcessing，SMP )， 即 每 个 处 理 器 自我 
调度 。 所 有 进程 可 能 处 于 一 个 共同 的 就 绪 队 列 中 ,或 每 个 处 理 器 都 有 它 自 己 的 私有 就 绪 进 
程 队 列 。 不 管 如 何 ， 调 度 这 样 进行 : 每 个 处 理 器 的 调度 程序 都 检查 共同 就 绪 队 列 ， 以 便 选择 
执行 一 个 进程 。 正 如 将 在 第 6 章 中 所 看 到 的 ， 如 果 多 个 处 理 器 试图 访问 和 更 新 一 个 共同 的 数 
据 结构 ， 那 么 每 个 处 理 器 必须 仔细 编程 。 必 须 确 保 两 个 处 理 器 不 会 选择 同一 进程 ， 而 且 进 程 
不 会 从 队列 中 丢失 。 几 乎 所 有 现代 操作 系统 ， 包 括 Windows, Linux 和 Mac OSX， 都 支持 
SMP。 本 节余 下 部 分 讨论 有 关 SMP 系统 的 多 个 问题 。 


5.5.2 “处理 器 亲 和 性 


考虑 一 下 ， 当 一 个 进程 运行 在 一 个 特定 处 理 器 上 时 缓存 会 发 生 些 什么 。 进 程 最 近 访 问 
的 数据 更 新 了 处 理 器 的 缓存 。 结 果 ， 进 程 的 后 续 内 存 访 问 通常 通过 缓存 来 满足 。 现 在 考虑 一 
下 ， 如 果 进 程 移 到 其 他 处 理 器 上 则 会 发 生 什 么 。 第 一 个 处 理 器 缓存 的 内 容 应 设 为 无 效 ， 第 二 
个 处 理 器 缓存 应 重新 填充 。 由 于 缓存 的 无 效 或 重新 填充 的 代价 高 ， 大 多 数 SMP 系统 试图 避 
免 将 进程 从 一 个 处 理 器 移 到 另 一 个 处 理 器 ， 而 是 试图 让 一 个 进程 运行 在 同一 个 处 理 器 上 。 这 
称 为 处 理 器 亲 和 性 (processor affinity)， 即 一 个 进程 对 它 运 行 的 处 理 器 具有 亲 和 人 性 。 

处 理 器 的 亲 和 性 具有 多 种 形式 。 当 一 个 操作 系统 试图 保持 进程 运行 在 同一 处 理 器 上 时 
(但 不 保证 它 会 这 么 做 )， 这 种 情况 称 为 软 亲 和 性 (soft affinity)。 这 里 ， 操 作 系统 试图 保持 一 
个 进程 在 某 个 处 理 器 上 ， 但 是 这 个 进程 也 可 迁移 到 其 他 处 理 器 。 相 反 ， 有 的 系统 提供 系统 
调用 以 便 支持 硬 亲 和 性 (hard affinity)， 从 而 允许 某 个 进程 运行 在 某 个 处 理 器 子 集 上 。 许 多 
系统 提供 软 的 和 硬 的 亲 和 性 。 例 如 ，Linux 实现 软 亲 和 性 ， 但 是 它 也 提供 系统 调用 sched_ 
setaffinity() 以 支持 硬 亲 和 性 。 

系统 的 内 存 架 构 可 以 影响 处 理 器 的 亲 和 性 。 图 5-9 为 采用 非 统一 内 存 访问 (Non- 
Uniform Memory Access, NUMA) 的 一 种 架构 ， 其 中 一 个 CPU 访问 内 存 的 某 些 部 分 会 比 其 
他 部 分 更 快 。 通常 情况 下 ， 这 类 系统 包括 组 合 CPU 和 内 存 的 板 卡 。 每 个 板 的 CPU 访问 本 板 
内 存 快 于 访问 其 他 板 的 内 存 。 如 果 操 作 系 统 的 CPU 调度 和 内 存 分 配 算法 一 起 工作 ， 那 么 当 
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一 个 进程 分 配 到 一 个 特定 的 亲 和 处 理 器 时 ， 它 应 分 配 到 同 板 上 的 内 存 。 这 个 例子 还 说 明 操 作 
系统 通常 不 按 教 科 书 描述 的 那样 清楚 地 定义 与 实现 。 实 际 上 ， 操 作 系统 的 各 个 部 分 的 “ 实 线 " 
通常 应 是 “虚线 ”， 因 为 有 些 算法 创建 连接 以 便 优化 性 能 和 可 靠 性 。 





图 5-9 NUMA 与 CPU 调度 


5.5.3 ”负载 平衡 


对 于 SMP 系统 ， 重 要 的 是 保持 所 有 处 理 器 的 负载 平衡 ， 以 便 充 分 利用 多 处 理 器 的 优点 。 

和 否则， 一 个 或 多 个 处 理 器 会 空闲 ， 而 其 他 处 理 器 会 处 于 高 负载 状态 ， 且 有 一 系列 进程 处 于 等 
待 状 态 。 负 载 平 衡 (load balance) 设法 将 负载 平均 分 配 到 SMP 系统 的 所 有 处 理 器 。 重 要 的 

是 ， 要 注意 对 于 有 些 系统 (它们 的 处 理 器 具有 私有 的 可 执行 进程 的 队列 )， 负 载 平衡 是 必需 
的 ; 而 对 于 具有 公共 队列 的 系统 ， 负 载 平 衔 通常 没有 必要 ， 因 为 一 旦 处 理 器 空闲 ， 它 立刻 从 
公共 队列 中 取 走 一 个 可 执行 进程 。 同 样 重要 的 是 ， 要 注意 对 于 大 多 数 支 持 SMP 的 现代 操作 
系统 ， 每 个 处 理 器 都 有 一 个 可 执行 进程 的 私有 队列 。 

负载 平衡 通常 有 两 种 方法 : 推 迁移 (push migration) MHE (pull migration)。 对 于 
推 迁 移 ， 一 个 特定 的 任务 周期 性 地 检查 每 个 处 理 器 的 负载 ， 如 果 发 现 不 平衡 ， 那 么 通过 将 进 
程 从 超载 处 理 器 推 到 (push) 空闲 或 不 太 忙 的 处 理 器 ， 从 而 平均 分 配 负载 。 当 空闲 处 理 器 从 
一 个 忙 的 处 理 器 上 拉 〈pull) 一 个 等 待 任务 时 ， 发 生 拉 迁移 。 推 迁移 和 拉 迁 移 不 必 相 互 排斥 ， 
事实 上 ， 在 负载 平衡 系统 中 它们 常 被 并 行 实现 。 例 如 ，Linux 调度 程序 (参见 5.7.1 节 ) 和 用 
于 FreeBSD 系统 的 ULE 调度 程序 实现 了 这 两 种 技术 。 

有 趣 的 是 ， 负 载 平衡 往往 会 抵消 5.5.2 节 介 绍 的 处 理 器 亲 和 人 性 的 好 处 。 也 就 是 说 ， 保 
持 一 个 进程 运行 在 同一 处 理 器 上 的 好 处 是 进程 可 以 利用 它 在 该 处 理 器 缓存 内 的 数据 。 无 论 
是 从 一 个 处 理 器 向 另 一 处 理 器 推 或 拉 进 程 ， 都 会 失去 这 个 好 处 。 与 通常 的 系统 工程 情况 一 
样 ， 关 于 何 种 方式 是 最 好 的 ， 没 有 绝对 规则 。 因 此 ， 在 某 些 系统 中 ,空闲 的 处 理 器 总 是 会 
从 非 空 闲 的 处 理 器 中 拉 进 程 ;而 在 其 他 系统 中 ， 只 有 当 不 平衡 达到 一 定 程度 后 才 会 移动 
进程 。 


5.5.4 多核 处 理 器 


传统 上 ，SMP 系统 具有 多 个 物理 处 理 器 ， 以 便 允 许多 个 线程 并 行 运行 。 然 而 ， 计 
算 机 硬件 的 最 近 做 法 是 ， 将 多 个 处 理 器 放置 在 同一 个 物理 芯片 上 ， 从 而 产生 多 核 处 理 器 
(multicore processor)。 每 个 核 都 保持 架构 的 状态 ， 因 此 对 操作 系统 而 言 它 似 乎 是 一 个 单独 的 
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物理 处 理 器 。 采 用 多 核 处 理 器 的 SMP 系统 与 采用 单 核 处 理 器 的 SMP 系统 相 比 ， 速 度 更 快 ， 
功 耗 更 低 。 

多 核 处 理 器 的 调度 问题 可 能 更 为 复杂 。 下 面 我 们 来 分 析 一 下 原因 。 研 究 人 员 发 现 ， 当 
一 个 处 理 器 访问 内 存 时 ， 它 花费 大 量 时间 等 待 所 需 数据 。 这 种 情况 称 为 内 存 停顿 (memory 
stall)， 它 的 发 生 原 因 多 种 多 样 ， 如 高 速 缓存 未 命中 〈 访 问 数据 不 在 高 速 缓冲 里 )。 图 5-10 显 
示 了 内 存 停顿 。 在 这 种 情况 下 ， 处 理 器 可 能 花费 高 达 50% 的 时 间 等 待 内 存 数 据 变 得 可 用 。 
为 了 弥补 这 种 情况 ， 许 多 最 近 的 硬件 设计 都 采用 了 多 线程 的 处 理 器 核 ， 即 每 个 核 会 分 配 到 两 
个 (或 多 个 ) 硬件 线程 。 这 样 ， 如 果 一 个 线程 停顿 而 等 竺 内存， 该 核 可 以 切换 到 另 一 个 线程 。 
图 5-11 显示 了 一 个 双 线 程 的 处 理 器 核 ， 这 里 线程 0 和 线程 1 的 执行 是 交错 的 。 从 操作 系统 
的 角度 来 看 ， 每 一 个 硬件 线程 似乎 作为 一 个 逻辑 处 理 器 ， 以 便 运 行 软件 线程 。 因 此 ， 在 双 线 
程 双 核 系统 中 ， 操 作 系 统 会 有 4 个 逻辑 处 理 器 。UltraSPARC T3 CPU 具有 16 个 处 理 器 核 ， 
而 每 个 核 有 8 个 硬件 线程 。 从 操作 系统 的 角度 ， 就 有 128 个 逻辑 处 理 器 。 





时 间 





时 间 
图 5-11 多 线程 多 核 系统 


一 般 来 说 ， 处 理 需 核 的 多 线程 有 两 种 方法 : 粗 粒 度 (coarse-grained) 和 细 粒 度 ( fine- 
grainded) 的 多 线程 。 对 于 粗 粒 度 的 多 线程 ， 线 程 一 直 在 处 理 器 上 执行 ， 直 到 一 个 长 延迟 事件 
(如 内 存 停顿 ) 发 生 。 由 于 长 延迟 事件 造成 的 延迟 ， 处 理 器 应 切换 到 另 一 个 线程 来 开始 执行 。 
然而 ， 线 程 之 间 的 切换 成 本 是 高 的 ， 因 为 在 另 一 个 线程 可 以 在 处 理 器 核 上 开始 执行 之 前 ， 应 
刷新 指令 流水 线 。 一 旦 这 个 新 的 线程 开始 执行 ， 它 会 开始 用 指令 来 填充 流水 线 。 细 粒度 (或 
交错 ) 的 多 线程 在 更 细 的 粒度 级 别 上 (通常 在 指令 周期 的 边界 上 ) 切换 线程 。 而 且 ， 细 粒度 
系统 的 架构 设计 有 线程 切换 的 逻辑 。 因 此 ， 线 程 之 间 的 切换 成 本 很 小 。 

注意 ， 一 个 多 线程 多 核 处 理 器 实际 需要 两 个 不 同 级 别 的 调度 。 一 个 级 别 的 调度 决策 由 操 
作 系 统 做 出 ， 用 于 选择 哪个 软件 线程 运行 在 哪个 硬件 线程 〈( 轩 辑 处 理 器 )。 对 于 这 个 级 别 的 
调度 ， 操 作 系统 可 以 选择 任何 调度 算法 ， 如 那些 在 5.3 节 中 所 描述 过 的 。 另 一 个 级 别 的 调度 
指定 每 个 核 如 何 决定 运行 哪个 硬件 线程 。 在 这 种 情况 下 ， 有 多 种 策略 可 以 采用 。 前 面 提 到 的 
UltraSparc T3 采用 一 个 简单 的 轮转 算法 ， 安 排 8 个 硬件 线程 到 每 个 核 。 另 一 个 例子 是 ，Intel 
Itanium 为 双核 处 理 器 ， 而 且 每 个 核 有 两 个 硬件 线程 。 每 个 硬件 线程 有 一 个 动态 的 紧迫 值 ， 
它 的 取 值 范围 为 0 一 7， 用 0 表示 最 低 的 紧迫 性 ， 而 7 表示 最 高 的 。Itanium 有 5 个 不 同 的 
事件 ， 用 于 触发 线程 切换 。 当 这 些 事件 发 生 时 ， 线 程 切换 逻辑 会 比较 两 个 线程 的 紧迫 性 ， 并 
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选择 紧迫 性 较 高 的 线程 在 处 理 器 核 上 执行 。 


5.6 实时 CPU 调度 


实时 操作 系统 的 CPU 调度 问题 有 些 特殊 。 一 般 来 说 ， 我 们 可 以 区 分 软 实时 系统 和 硬 实 
时 系统 。 软 实时 系统 (soft real-time system) 不 保证 会 调度 关键 实时 进程 ; 而 只 保证 这 类 进 
程 会 优先 于 非 关 键 进程 。 硬 实时 系统 (hard real-time system) 有 更 严格 的 要 求 。 一 个 任务 应 
在 它 的 截止 期 限 之 前 完成 ; 在 截止 期 限 之 后 完成 ， 与 没有 完成 ， 是 完全 一 样 的 。 在 本 节 中 ， 
我 们 探讨 有 关 软 和 硬 实 时 操作 系统 的 多 个 问题 。 


5.6.1 最 小 化 延迟 


考虑 实时 系统 的 事件 驱动 性 质 。 通 常 ， 这 种 系统 等 待 一 个 实时 事件 的 发 生 。 事 件 可 能 
源 自 软 件 ， 如 定时 器 的 期 限 已 到 ; 或 可 能 源 自 硬 件 ， 如 遥控 车 辆 检测 到 它 正 在 接近 一 个 障碍 
物 。 当 一 个 事件 发 生 时 ， 系 统 应 尽快 地 响应 和 服务 它 。 从 事件 发 生 到 事件 得 到 服务 的 这 段 时 
间 称 为 事件 延迟 (event latency )( Al 5-12 ) 。 

通常 ， 不 同事 件 具 有 不 同 延 迟 要 求 。 例 如 ， 用 于 防 抱 死 制 动 系统 的 时 延 要 求 可 能 
为 3 ~~ 5ms。 也 就 是 说 ， 从 轮子 第 一 次 发 现 它 在 滑动 开始 ， 防 抱 死 刹车 控制 系统 可 以 有 
3 ~ Sms 的 响应 延迟 。 任 何 需 要 更 长 时 间 的 响应 可 能 导致 汽车 的 失控 。 相 比 之 下 ， 飞 机 控制 
雷达 的 租 入 式 系统 可 以 允许 数秒 的 时 间 延 迟 。 

两 种 类 型 的 延迟 影响 实时 系统 的 性 能 : 中 断 延 迟 和 调度 延迟 。 

thE HEIR (interrupt latency) 是 从 CPU 收 到 中 断 到 中 断 处 理 程序 开始 的 时 间 。 当 一 个 中 
断 发 生 时 ， 操 作 系 统 应 先 完成 正在 执行 的 指令 ， 再 确定 发 生 中 断 的 类 型 。 然 后 ， 它 应 保存 当 
前 进程 的 状态 ， 再 采用 特定 的 中 断 服 务 程序 (Interrupt Service Routine, ISR) 来 处 理 中 断 。 
执行 这 些 任 务 需要 的 总 时 间 为 中 断 延 迟 (图 5-13 ) 。 显 然 ， 对 实时 操作 系统 来 说 ， 至 关 重 要 
的 是 : 尽量 减少 中 断 延 迟 ， 以 确保 实时 任务 得 到 立即 处 理 。 事 实 上， 对 于 硬 实时 系统 ， 中 断 
延迟 不 只 是 简单 地 最 小 化 ， 而 是 要 有 界 以 便 满足 这 些 系 统 的 严格 要 求 。 








| 任务 7 运行 | 确定 中 断 类 型 
“a 上 下 文 切换 
事件 5 首先 发 生 in i 
| 事件 延迟 ET 
fo À ? [] ot a A 
实时 系统 响应 E aa 
时 间 时 间 
图 5-12 事件 延迟 图 5-13 中 断 延 迟 


影响 中 断 延迟 的 一 个 重要 因素 是 : 在 更 新 内 核 数 据 结构 时 中 断 可 能 会 被 禁用 的 时 间 量 。 
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实时 操作 系统 要 求 中 断 禁 用 的 时 间 应 非常 短 。 

调度 程序 从 停止 一 个 进程 到 启动 另 一 个 进程 所 需 的 时 间 量 称 为 调度 延迟 (dispatch 
latency)。 提 供 实 时 任务 立即 访问 CPU 要 求 ， 实 时 操作 系统 最 大 限度 地 减少 这 种 延迟 。 保 持 
调度 延迟 尽 可 能 低 的 最 有 效 技术 是 ， 提 供 抢 占 式 内 核 。 

图 5-14 说 明了 调度 延迟 的 组 成 部 分 。 调 度 延 迟 的 冲突 阶段 (conflict phase) 有 两 个 
部 分 : 抢占 在 内 核 中 运行 的 任何 进程 ;释放 高 优先 级 进程 所 需 的 、 低 优先 级 进程 占有 的 
资源 。 





事件 响应 事件 
响应 间隔 
进程 可 用 
中 断 处 理 
调度 延迟 
冲突 
时 间 


图 5-14 调度 延迟 
以 Solaris 为 例 ， 禁 用 抢占 的 调度 延迟 超过 100ms， 而 启用 抢占 的 调度 延迟 不 到 1ms。 


5.6.2 RENAE 


实时 操作 系统 的 最 重要 功能 是 : 当 一 个 实时 进程 需要 CPU 时 ， 立 即 响 应 。 因 此 ， 用 于 
实时 操作 系统 的 调度 程序 应 支持 抢占 的 基于 优先 权 的 算法 。 回 想 一 下 : 基于 优先 级 的 调度 算 
法 根据 每 个 进程 的 重要 性 而 分 配 优先 级 ; 进程 越 重要 ， 它 分 配 的 优先 级 也 就 越 高 。 如 果 调 度 
程序 还 支持 抢占 ， 并 且 有 一 个 更 高 优先 级 的 进程 处 于 就 绪 ， 那 么 正在 运行 的 、 较 低 优先 级 的 
进程 会 被 抢占 。 

5.3.3 节 已 经 详细 讨论 了 抢占 的 、 基 于 优先 级 的 调度 算法 ; 5.7 节 将 会 举例 说 明 操 作 系 
统 (444% Linux, Windows 和 Solaris 等 ) 的 软 实时 调度 。 这 些 系统 都 为 实时 进程 分 配 最 高 的 
调度 优先 级 。 例 如 ，Windows 有 32 个 不 同 的 优先 级 。 最 高 级 别 ， 即 优先 级 的 值 为 16 ~ 31, 
专门 用 于 实时 进程 。Solaris 和 Linux 具有 类 似 的 优先 级 方案 。 

注意 ， 提 供 抢占 的 、 基 于 优先 级 的 调度 程序 仅 保证 软 实时 功能 。 硬 实时 系统 应 进一步 保 
证 实时 任务 应 在 截止 期 限 内 得 到 服务 ， 做 出 这 样 的 保证 需要 附加 的 调度 特征 。 本 节 剩 余部 分 
将 会 讨论 用 于 硬 实时 系统 的 调度 算法 。 

在 讨论 各 个 调度 程序 的 细节 之 前 ， 我 们 应 当 分 析 需 要 调度 进程 的 一 些 特性 。 首 先 ， 这 
些 进 程 是 周期 性 的 ( periodic)。 也 就 是 说 ， 它 们 定期 需要 CPU。 一 旦 周期 性 进程 获得 CPU, 
它 具 有 固定 的 处 理 时间 t+、CPU 应 处 理 的 截止 期 限 4 和 周期 p。 处 理 时 间 、 截 止 期 限 和 周期 
三 者 之 间 的 关系 为 : 0 < 1 < 4d < p。 周 期 任务 的 速率 (rate) 为 /p。 图 5-15 演示 了 一 个 周 
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期 性 进程 随时 间 的 执行 情况 。 调 度 程 序 可 以 利用 这 些 特 性 ， 根 据 进 程 的 截止 期 限 或 速率 要 求 
来 分 配 优先 级 。 






Te be a 


i a, i 
局 期 周期 ? 周期 3 jáá 


图 5-15 周期 任务 


这 种 形式 调度 的 不 寻常 之 处 在 于 ， 进 程 可 能 应 向 调度 器 公布 其 截止 期 限 要 求 。 然 后 ， 使 
用 一 种 称 为 准 入 控制 (admission-control) 算法 的 技术 ， 调 度 程序 做 两 件 事 之 一 : 它 承 认 进 
[226] 程 ， 保 证 进程 完成 ; 如 果 它 不 能 保证 任务 能 在 截止 期 限 前 得 以 服务 ， 拒 绝 请 求 。 


5.6.3 ”单调 速率 调度 


单调 速率 (rate-monotonic) 调度 算法 采用 抢占 的 、 静 态 优 先 级 的 策略 ， 调 度 周期 性 任 
务 。 当 较 低 优先 级 的 进程 正在 运行 并 且 较 高 优先 级 的 进程 可 以 运行 时 ， 较 高 优先 级 进程 将 
会 抢占 低 优 先 级 。 在 进入 系统 时 ， 每 个 周期 性 任务 会 分 配 一 个 优先 级 ， 它 与 其 周期 成 反比 。 
周期 越 短 ， 优 先 级 越 高 ;周期 越 长 ， 优 先 级 越 低 。 这 种 策略 背后 的 理由 是 : 更 频繁 地 需要 
CPU 的 任务 应 分 配 更 高 的 优先 级 。 此 外 ， 单 调 速率 调度 假定 : 对 于 每 次 CPU 执行 ， 周 期 性 
进程 的 处 理 时 间 是 相同 的 。 也 就 是 说 ， 在 每 次 进程 获取 CPU 时 ， 它 的 CPU 执行 长 度 是 相 
同 的 。 

我 们 考虑 一 个 例子 。 我 们 有 两 个 进程 P| 和 Pa Pi 和 P 的 周期 分 别 为 50 和 100， 即 pi = 
50 和 ps = 100. Pi Al Pa 的 处 理 时 间 分 别 为 总 = 20 和 加 = 35。 每 个 进程 的 截止 期 限 要求 ， 它 
在 下 一 个 周期 开始 之 前 完成 CPU 执行 。 

首先 ， 我们 应 问 自己 是 否 可 能 调度 这 些 任务 以 便 每 个 进程 都 能 满足 截止 期 限 。 如 果 我 们 
按 执 行 与 周期 的 比率 ti 测量 一 个 进程 的 CPU 利用 率 ， 那 么 P 的 CPU 利用 率 20/50 = 0.40, 
P, WYSE 35/100 = 0.35， 总 的 CPU 利用 率 为 75%。 因 此 ， 我 们 似乎 可 以 调度 这 些 任务 以 便 满 
足 它们 的 截止 期 限 ， 并 且 仍 让 CPU 有 多 余 可 用 的 时 间 。 

假设 为 Pa 分 配 比 Pi 更 高 的 优先 级 。 Pi 和 P 的 执行 情况 如 图 5-16 所 示 。 我 们 可 以 看 到 ， 
忆 首先 开始 执行 并 在 时 间 35 完成 。 这 时 ，Pl 开始 ， 它 完成 CPU 执行 时 间 55, Am, Pi 的 
第 一 个 截止 期 限 是 在 时 间 50， 所 以 调度 程序 让 Pi 错过 其 截止 期 限 。 


截止 期 限 P, Pi, P, 










ae 
图 5-16 ” 当 P: 的 优先 级 高 于 Pi 时 的 任务 调度 
现在 假设 使 用 单调 速率 调度 ， 这 里 Pi 分 配 的 优先 级 要 高 于 P; 的 ， 因 为 Pi 的 周期 比 P， 


的 更 短 。 在 这 种 情况 下 ， 这 些 进 程 执行 如 图 5-17 所 示 。 首 先 ，Pi 开始 ， 并 在 时 间 20 完成 
CPU 执行 ， 从 而 满足 第 一 个 截止 期 限 。 忆 在 这 点 开始 运行 ， 并 运行 直到 时 间 50。 此 时 ， 它 
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被 P 抢占 ， 尽 管 它 的 CPU 执行 仍 有 Sms 的 时 间 。P 在 时 间 70 完成 CPU 执行 ， 在 这 点 调 
度 器 恢复 P,。P; 在 时 间 75 完成 CPU 执行 ， 也 满足 第 一 个 截止 期 限 。 然 后 ， 系 统一 直 空 闲 
直到 时 间 100, XAF, Pi 再 次 被 调度 。 


截止 期 限 P, Pi, P, 
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图 5-17 单调 速率 调度 
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单调 速率 调度 可 认为 是 最 优 的 ， 因 为 如 果 一 组 进程 不 能 由 此 算法 调度 ， 它 不 能 由 任何 其 
他 分 配 静 态 优先 级 的 算法 来 调度 。 我 们 接 下 来 分 析 一 组 进程 ， 它 们 不 能 使 用 单调 速率 算法 来 
调度 。 

假设 进程 Pi 具有 周期 p = 50 和 CPU 执行 = 25。 进 程 Po 的 对 应 值 是 p, = 80 和 二 = 
35。 单 调 速 率 调度 将 为 进程 Pi 分配 较 高 的 优先 级 ， 因 为 它 具 有 较 短 的 周期 。 两 个 进程 的 总 
CPU 利用 率 为 (25/50) + (35/80) = 0.94， 因 此 似乎 合乎 逻辑 的 结论 是 ， 这 两 个 进程 可 以 被 调 
RE, 并 且 仍 让 CPU 有 6% 的 可 用 时 间 。 图 5-18 显示 了 进程 Pi 和 P 的 调度 。 最 初 ，Pl 运行 ， 
直到 在 时 间 25 完成 CPU 执行 。 进 程 P, 然后 开始 运行 ， 并 运行 直到 时 间 50， 这 时 它 被 已 抢 
占 ; XAF, Pa 在 CPU 执行 中 仍 有 10ms 的 剩余 。 进 程 P 运行 直到 时 间 75， 导 致 P2 在 时 间 
85 结束 ， 因 而 超过 了 在 时 间 80 完成 CPU 执行 的 截止 期 限 。 
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图 5-18 错过 截止 期 限 的 单调 速率 调度 


尽管 是 最 优 的 ， 然 而 单调 速率 调度 有 一 个 限制 : CPU 的 利用 率 是 有 限 的 ， 并 不 总 是 可 

能 完全 最 大 化 CPU 资源 。 调 度 W 个 进程 的 最 坏 情 况 下 的 CPU 利用 率 为 
noe -1) 

对 于 具有 一 个 进程 的 系统 ，CPU 利用 率 是 100% ; 但 是 当 进 程 数量 接近 无 穷 时 ， 它 大 约 接 
近 69%。 对 于 具有 两 个 进程 的 系统 ，CPU 利用 率 是 83%。 图 5-16 和 图 5-17 调度 的 两 个 进 
程 的 组 合 利用 率 为 753%， 因 此 单调 速率 调度 算法 保证 能 够 调度 它们 。 图 5-18 所 示 的 两 个 进 
程 的 组 合 利 用 率 为 94%， 因 此 ， 单 调 速率 调度 不 能 保证 它们 可 以 调度 以 便 满足 它们 的 截止 
期 限 。 


5.6.4 最早 截 止 期 限 优先 调度 


最 早 截 止 期 限 优先 (Earliest-Deadline-First, EDF) 调度 根据 截止 期 限 动态 分 配 优先 级 。 
截止 期 限 越 早 ， 优 先 级 越 高 ;截止 期 限 越 晚 ， 优 先 级 越 低 。 根 据 EDF 策略 ， 当 一 个 进程 可 
运行 时 ， 它 应 向 系统 公布 截止 期 限 要求 。 优 先 级 可 能 需要 进行 调整 ， 以 便 反映 新 可 运行 进程 
的 截止 期 限 。 注 意 单调 速率 调度 与 EDF 调度 的 不 同 ， 前 者 的 优先 级 是 固定 的 。 

为 了 说 明 EDF 调度 ,我们 再 次 调度 如 图 5-18 所 示 的 进程 ， 这 些 进程 通过 单调 速率 调度 
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不 能 满足 截止 期 限 要 求 。 记 住 : DERE P A p = 50 Alt) = 25, DERE PA p = 80 Alb = 

这 些 进程 的 EDF 调度 如 图 5-19 所 示 。 进 程 Pi 的 截止 期 限 为 最 早 ， 所 以 它 的 初始 优先 级 比 
进程 P 的 要 高 。 当 Pi 的 CPU 执行 结束 时 ， 进 程 Pa 开始 和 运行。 不过， 虽然 单调 速率 调度 允 
许 己 在 时 间 50( 即 下 一 周期 开始 之 际 ) 抢占 P,， 但 是 EDF 调度 允许 进程 P; 继续 运行 。 进 
FE P 的 优先 级 比 Pi 的 更 高 ， 因 为 它 的 下 一 个 截止 期 限 (时 间 80) H P Ag (时间 100) 要 
早 。 因 此 ，P 和 P 都 能 满足 它们 的 第 一 个 截止 期 限 。 进 程 Pi 在 时 间 60 再 次 开始 运行 ， 在 
时 间 85 完成 第 二 个 CPU 执行 ， 也 满足 第 二 个 截止 期 限 (在 时 间 100 )。 这 时 ， 进 程 P; 开始 
运行 ， 只 是 在 时 间 100 被 Pi 抢占 。P; 之 所 以 被 Pi 抢占 是 因为 Pi 的 截止 期 限 (时 间 150 ) 要 
比 P hy (160) 更 早 。 在 时 间 125，P 完成 CPU HÍT, Pi 恢复 执行 ; 在 时 间 145，P; 完成 ， 
并 满足 它 的 截止 期 限 。 然 后 ， 系 统 空闲 直到 时 间 150; 在 时 间 150 进程 Pi 开始 再 次 被 调度 。 


截止 期 限 P, P, P, P, 
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图 5-19 最 早 截止 期 限 优先 调度 





与 单调 速率 调度 不 一 样 ，EDF 调度 不 要 求 进程 应 是 周期 的 ， 也 不 要 求 进程 的 CPU 执行 
的 长 度 是 固定 的 。 唯 一 的 要 求 是 : 进程 在 变 成 可 运行 时 ， 应 宣布 它 的 截止 期 限 。EDF 调度 具 
有 吸引 力 的 地 方 是 : 它 是 理论 上 最 佳 的 。 从 理论 上 说 ， 它 可 以 调度 进程 ， 使 得 每 个 进程 都 可 
以 满足 截止 期 限 的 要 求 并 且 CPU 利用 率 将 会 是 100%。 然 而 ， 在 实际 中 ， 由 于 进程 的 上 下 文 
切换 和 中 断 处 理 的 代价 ， 这 种 级 别 的 CPU 利用 率 是 不 可 能 的 。 


5.6.5 ”比例 分 享 调度 


比例 分 享 (proportional share) 调度 程序 在 所 有 应 用 之 间 分 配 了 股 。 如 果 一 个 应 用 程序 
接收 N 股 的 时 间 ， 那 么 确保 了 它 将 有 N/T 的 总 的 处 理 器 时 间 。 例 如 ， 假 设 总 的 了 = 100 股 要 
在 三 个 进程 4、B 和 C 之 间 进 行 分配 。4 PAC SOR, BAB 15 股 ， 而 C 分 配 20 股 。 这 种 
方案 确保 : AA 50% 的 总 的 处 理 器 时 间 ,，B3 有 15%，C 有 20%。 

比例 分 享 调度 程序 应 采用 准 入 控制 策略 ， 以 便 确保 每 个 进程 能 够 得 到 分 配 时 间 。 准 入 控 
制 策略 是 : 只 有 客户 请 求 的 股 数 小 于 可 用 的 股 数 ， 才 能 允许 客户 进入 。 对 于 本 例 ， 我 们 现在 
只 有 100 - (50 + 15 + 20) = 15 股 可 用 。 如 果 一 个 新 进程 刀 请 求 30 A, ABA MEA SS ill aE edt 
绝 刀 进入 系统 。 


5.6.6 POSIX 实时 调度 


POSIX 标准 也 有 一 个 实时 计算 扩展 ， 即 POSIX.1b。 这 里 ， 我 们 讨论 与 实时 线程 调度 4 
关 的 一 些 POSIX API, POSIX 定义 两 种 类 型 的 实时 线程 调度 : 

e SCHED FIFO 

e SCHED RR 

SCHED_FIFO 采用 如 5.3.1 节 概 述 的 FIFO 队列， 按照 先 来 先 服 务 策略 来 调度 线程 。- 
过 ,在 具有 同等 优先 级 的 线程 之 间 没 有 分 时 。 因 此 ， 位 于 FIFO 队列 前 面 的 最 高 优先 级 的 
时 线程 ， 在 得 到 CPU 后 ,会 一 直 占有 ， 直 到 它 终止 或 阻塞 。SCHED_RR 使 用 轮 询 策略 。 
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类 似 于 SCHED FIFO, 但 是 它 提 供 了 在 同等 优先 级 的 线程 之 间 进 行 分 时 。 另 外 ，POSIX 还 
提供 一 个 额外 的 调度 类 型 SCHED_OTHER, 但 是 它 的 实现 没有 定义 ， 并 且 取 决 于 特定 系统 ; 
因此 它 在 不 同系 统 上 的 行为 可 能 不 同 。 

POSIX API 有 两 个 郴 数 ， 用 于 获取 和 设置 调度 策略 : 

è pthread_attr_getsched_policy (pthread_attr_t *attr, int *policy) 

e pthread_attr_setsched_policy (pthread_attr_t *attr, int policy) 
这 两 个 函数 的 第 一 个 参数 是 线程 属性 集 的 指针 。 第 二 个 参数 是 : 1 ) 获得 当前 调度 策略 的 
整数 的 一 个 指针 (用 于 pthread_attr_getsched policy()), 或 2) 一 个 整数 (SCHED 
FIFO，SCHED RR 或 SCHED OTHER)( 用 于 pthread_attr_setsched policy() )。 如 果 
发 生 错 误 ， 那 么 这 两 个 函数 返回 非 零 值 。 

图 5-20 为 采用 这 些 API 的 一 个 POSIX 多 线程 程序 。 这 程序 首先 确定 当前 的 调度 策略 ， 
然后 将 调度 算法 设置 成 SCHED_FIFO。 


#include <pthread.h> 
#include <stdio.h> 
#define NUM_THREADS 5 


int main(int argc, char *argv[]) 


int i, policy; 
pthread t tid[NUM_THREADS] ; 
Pthread_attr attr; 


/* get the default attributes */ 
pthread_attr_init (&attr); 


/* get the current scheduling policy */ 
if (pthread attr getschedpolicy(&attr, &policy) != 0) 
fprintf(stderr, "Unable to get policy.\n"); 
else { 
if (policy == SCHED_OTHER) 
printf ("SCHED_OTHER\n") ; 
else if (policy == SCHED_RR) 
printf ("SCHED_RR\n") ; 
else if (policy == SCHED_FIFO) 
printf ("SCHED_FIFO\n") ; 


/* set the scheduling policy - FIFO, RR, or OTHER */ 
if (pthread_attr_setschedpolicy(&attr, SCHED FIFO) != 0) 
fprintf(stderr, "Unable to set policy.\n"); 


/* create the threads */ 
for (i = 0; i < NUM_THREADS; i++) 
pthread_create(&tid[i] ,zattr,runner, NULL) ; 


/* now join on each thread */ 


for (i = 0; i < NUM_THREADS; i++) 
pthread_join(tid[i], NULL); 


/* Each thread will begin control in this function */ 
void *runner(void *param) 
/* do some work ... */ 


pthread_exit (0) ; 





图 5-20 POSIX 实时 调度 API 
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5.7 操作 系统 例子 


接 下 来 ,我 们 讨论 操作 系统 Linux, Windows 和 Solaris 的 调度 策略 。 重 要 的 是 要 注意 ， 
我 们 使 用 的 进程 调度 ( process-scheduling) 这 一 术语 是 泛 指 的 。 事 实 上 ， 在 讨论 Solaris 和 
Windows 系统 时 ， 采 用 内 核 线程 (kernel threads) 调度 ; 而 在 讨论 Linux 系统 时 ， 采 用 任务 
(tasks) 调度 。 


230) 5.7.1 例子 : Linux 调度 


231 Linux 进程 调度 有 一 个 有 趣 历史 。 在 2.5 版 本 之 前 ，Linux 内 核 采 用 传统 UNIX 调度 算 
法 。 然 而 ， 由 于 这 个 算法 并 没有 考虑 SMP 系统 ， 因 此 它 并 不 足够 支持 SMP 系统 。 此 外 ， 当 
有 大 量 的 可 运行 进程 时 ， 系 统 性 能 表现 欠 佳 。 在 内 核 V2.5 中 ， 调 度 程序 进行 了 大 改 ， 采 用 
TRA 0(1) 的 调度 算法 ， 它 的 运行 时 间 为 常量 ， 与 系统 内 任务 数量 无 关 。0O(1) 调度 程序 也 
增加 了 对 SMP 系统 的 支持 ， 包 括 处 理 器 亲 和 性 和 处 理 器 间 的 负载 平衡 。 然 而 ， 在 实践 中 ， 
虽然 在 SMP 系统 上 O(1) 调度 程序 具有 出 色 的 性 能 ， 但 是 在 许多 桌面 计算 机 系统 上 交互 进程 
的 响应 时 间 却 欠 佳 。 在 内 核 V2.6 的 开发 中 ， 调 度 程序 再 次 修改 ; 在 内 核 V2.6.23 的 发 布 中 ， 
完全 公平 调度 程序 (Completely Fair Scheduler, CFS) 成 为 默认 的 Linux 调度 算法 。 

Linux 系统 的 调度 基于 调度 类 ( scheduling class)。 每 个 类 都 有 一 个 特定 优先 级 。 内 
核 针 对 不 同 的 调度 类 ， 采 用 不 同 的 调度 算法 ， 以 便 满 足 系 统 与 进程 的 需要 。 例 如 ， 用 于 
Linux 服务 器 的 调度 准则 ， 也 许 不 同 于 移动 设备 的 。 为 了 确定 应 运行 哪个 进程 ， 调 度 程序 
从 最 高 优先 级 调度 类 中 选择 具有 最 高 优先 级 的 任务 。Linux 标准 内 核实 现 两 个 调度 类 : 采 
用 CFS 调度 算法 的 默认 调度 类 和 实时 调度 类 。 这 里 分 别 讨论 这 些 。 当 然 ， 新 调度 类 也 可 
添加 。 

CFS 调度 程序 并 不 采用 严格 规则 来 为 一 个 优先 级 分 配 某 个 长 度 的 时 间 片 ， 而 是 为 每 个 任 
务 分 配 一 定 比 例 的 CPU 处 理 时 间 。 每 个 任务 分 配 的 具体 比例 是 根据 友好 值 (nice value) 来 
计算 的 。 友 好 值 的 范围 从 -20 到 +19， 数 值 较 低 的 友好 值 表示 较 高 的 相对 优先 级 。 具 有 较 低 
友好 值 的 任务 ， 与 具有 较 高 友好 值 的 任务 相 比 ， 会 得 到 更 高 比例 的 处 理 器 处 理 时 间 。 默 认 友 
好 值 为 0。( 友 好 (nice) 一 词 源 自如 下 想法 : 当 一 个 任务 增加 了 它 的 友好 值 ， 如 从 0 至 +10， 
该 任务 通过 降低 优先 级 ， 进 而 对 其 他 任务 更 加 友好 。) CFS 没有 使 用 离散 的 时 间 片 ， 而 是 采 
用 目标 延迟 (target latency)， 这 是 每 个 可 运行 任务 应 当 运 行 一 次 的 时 间 间 隔 。 根 据 目 标 延 
迟 ， 按 比例 分 配 CPU 时 间 。 除 了 默认 值 和 最 小 值 外 ， 随 着 系统 内 的 活动 任务 数量 超过 了 一 
TERE, App REIS Fy AN 

CFS 调度 程序 没有 直接 分 配 优先 级 。 相 反 ， 它 通过 每 个 任务 的 变量 vruntime 以 便 维护 
虚拟 运行 时 间 ( virtual run time)， 进 而 记录 每 个 任务 运行 多 久 。 虚 拟 运行 时 间 与 基于 任务 优 
先 级 的 衰减 因子 有 关 : 更 低 优 先 级 的 任务 比 更 高 优先 级 的 任务 具有 更 高 衰减 速率 。 对 于 正常 
优先 级 的 任务 (友好 值 为 0 )， 虚 拟 运行 时 间 与 实际 物理 运行 时 间 是 相同 的 。 因 此 ， 如 果 一 个 
默认 优先 级 的 任务 运行 200ms， 则 它 的 vruntime 也 为 200ms。 然 而 ， 如 果 一 个 较 低 优先 级 
的 任务 运行 200ms， 则 它 的 vruntime 将 大 于 200ms。 同 样 ， 如 果 一 个 更 高 优先 级 的 任务 运 
行 200ms， 则 它 的 vruntime 将 小 于 200ms。 当 决定 下 步 运 行 哪个 任务 时 ， 调 度 程序 只 需 选 
择 具有 最 小 vruntime 值 的 任务 。 此 外 ， 一 个 更 高 优先 级 的 任务 如 成 为 可 运行 ， 就 会 抢占 低 

优先 级 任务 。 
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CFS 性 能 

Linux CFS 调度 程序 采用 高 效 算 法 ， 以 便 选择 运行 下 个 任务 。 每 个 可 运行 的 任务 放置 
在 红 黑 树 上 (这 是 一 种 平衡 的 、 二 分 搜索 树 ， 它 的 键 是 基于 vruntime 值 的 )。 这 种 树 如 
下 图 所 示 : 


wie, OX O 
ear ae 
Qs De® 


-一 
小 vruntime 值 大 


当 一 个 任务 变 成 可 运行 时 ， 它 被 添加 到 树 上 。 当 一 个 任务 变 成 不 可 运行 时 (例如 ， 当 
阻塞 等 待 UO 时 )， 它 从 树 上 被 删除 。 一 般 来 说 ， 得 到 较 少 处 理 时 间 的 任务 (vruntime 值 
较 小 ) 会 偏向 树 的 左 侧 ; 得 到 较 多 处 理 时 间 的 任务 会 偏向 树 的 右 侧 。 根 据 二 分 搜索 树 的 性 
质 ， 最 左 侧 的 结 点 有 最 小 的 键 值 ; 从 CFS 调度 程序 角度 而 言 ， 这 也 是 具有 最 高 优先 级 的 
任务 。 由 于 红 黑 树 是 平衡 的 ， 找 到 最 左 侧 结 点 会 需要 Og N) 操作 (这 里 入 为 树 内 结 点 总 
数 )。 不 过 ， 为 高 效 起 见 ，Linux 调度 程序 将 这 个 值 缓存 在 变量 rb_leftmost 中 ， 从 而 确 
定 哪 个 任务 运行 只 需 检索 缓存 的 值 。 


下 面 分 析 一 下 CFS 调度 程序 是 如 何 工作 的 。 假 设 有 两 个 任务 ， 它 们 具有 相同 的 友好 值 。 
一 个 任务 是 IO 密集 型 而 另 一 个 为 CPU 密集 型 。 通 常 ，IO 密集 型 任务 在 运行 很 短 时 间 后 就 
会 阻塞 以 便 等 待 更 多 的 VO; 而 CPU 密集 型 任务 只 要 有 在 处 理 器 上 运行 的 机 会 ， 就 会 用 完 它 
的 时 间 片 。 因 此 ，L/O 密集 型 任务 的 vruntime 值 最 终 将 会 小 于 CPU 密集 型 任务 的 ， 从 而 使 
得 IO 密集 型 任务 具有 更 高 的 优先 级 。 这 时 ， 如 果 CPU 密集 型 任务 在 运行 ， 而 IO 密集 型 
任务 变 得 有 资格 可 以 运行 (如 该 任务 所 等 待 的 1O 已 成 为 可 用 )， 那 么 IO 密集 型 任务 就 会 抢 
占 CPU 密集 型 任务 。 

Linux 根据 5.6.6 节 所 述 的 POSIX 标 准 也 实现 了 实时 调度 。 采 用 SCHED _FIFO 或 
SCHED RR 实时 策略 来 调度 的 任何 任务 ， 与 普通 ( 非 实时 的 ) 任务 相 比 ， 具 有 更 高 的 优先 
Bo Linux 采用 两 个 单独 的 优先 级 范围 ， 一 个 用 于 实时 任务 ， 另 一 个 用 于 正常 任务 。 实 时 任 
务 分 配 的 静态 优先 级 为 0 ~ 99， 而 正常 任务 分 配 的 优先 级 为 100 ~ 139。 这 两 个 值 域 合 并 
成 为 一 个 全 局 的 优先 级 方案 ， 其 中 较 低 数值 表明 较 高 的 优先 级 。 正 常任 务 ， 根 据 它 们 的 友好 
值 ， 分 配 一 个 优先 级 ; 这 里 -20 的 友好 值 映 射 到 优先 级 100， 而 +19 的 友好 值 映 射 到 139。 
图 5-21 显示 了 这 个 方案 。 





图 5-21 Linux 系统 的 调度 优先 级 
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5.7.2 例子 : Windows 调度 


Windows 采用 基于 优先 级 的 、 抢 占 调 度 算法 来 调度 线程 。Windows 调度 程序 确保 具 
有 最 高 优先 级 的 线程 总 是 在 运行 的 。 用 于 处 理 调 度 的 Windows 内 核 部 分 称 为 调度 程序 
(dispatcher)。 由 于 调度 程序 选择 运行 的 线程 会 一 直 运 行 ， 直 到 被 更 高 优先 级 的 线程 所 抢占 ， 
或 终止 ， 或 时 间 片 已 到 ， 或 调用 阻塞 系统 调用 (如 IO)。 如 果 在 低 优 先 级 线程 运行 时 ， 更 高 
优先 级 的 实时 线程 变 成 就 绪 ， 那 么 低 优先 级 线程 就 被 抢占 。 这 种 抢占 使 得 实时 线程 在 需要 使 
用 CPU 时 优先 得 到 使 用 。 

调度 程序 采用 32 级 的 优先 级 方案 ， 以 便 确 定 线程 执行 顺序 。 优 先 级 分 为 两 大 类 : 可 
变 类 (variable class) 包括 优先 级 从 1 一 15 的 线程 ， 实 时 类 (real-time class) 包括 优先 级 从 
16 ~ 31 的 线程 (还 有 一 个 线程 运行 在 优先 级 0， 它 用 于 内 存 管理 )。 调 度 程序 为 每 个 调度 优 
先 级 采用 一 个 队列 ; 从 高 到 低 检查 队列 ， 直 到 它 发 现 一 个 线程 可 以 执行 。 如 果 没 有 找到 就 绪 
线程 ， 那 么 调度 程序 会 执行 一 个 称 为 空闲 线程 (idle thread) 的 特别 线程 。 

在 Windows 内 核 和 Windows API 的 数字 优先 级 之 间 有 一 个 关系 。Windows API 定义 了 
一 个 进程 可 能 属于 的 一 些 优先 级 类 型 。 它 们 包括 : 

e IDLE PRIORITY CLASS 

e BELOW_NORMAL PRIORITY CLASS 

e NORMAL PRIORITY_ CLASS 

e ABOVE NORMAL PRIORITY CLASS 

e HIGH PRIORITY CLASS 

e REALTIME PRIORITY CLASS 
进程 通常 属于 类 NORMAL PRIORITY _ CLASS。 进程 属于 这 个 类 ， 除 非 进程 的 父 进程 属 于 类 
IDLE_ PRIORITY_CLASS， 或 者 在 创建 进程 时 指定 了 某 个 类 。 此 外 ， 通 过 Windows API H K 
数 SetPriorityClass()， 进 程 的 优先 级 的 类 可 以 修改 。 除 了 REALTIME PRIORITY_CLASS 
外 ， 所 有 其 他 类 的 优先 级 都 是 可 变 的 ， 这 意味 着 属于 这 些 类 型 的 线程 优先 级 能 够 改变 。 

具有 给 定 优先 级 类 的 一 个 线程 也 有 一 个 相对 优先 级 。 这 个 相对 优先 级 的 值 包括 : 

e IDLE 

e LOWEST 
BELOW_NORMAL 
NORMAL 
ABOVE_NORMAL 
HIGHEST 

e TIME_CRITICAL 

每 个 线程 的 优先 级 基于 它 所 属 的 优先 级 类 型 和 它 在 该 类 型 中 的 相对 优先 级 。 图 5-22 说 
明了 这 种 关系 。 每 个 类 型 的 值 出 现在 顶 行 。 左 列 包括 相对 优先 级 的 值 。 例 如 ， 如 果 一 个 线程 
属于 ABOVE NORMAL PRIORITY_CLASS 型 ， 且 相对 优先 级 为 NORMAL， 那 么 该 线程 
的 优先 级 数值 为 10。 

另外 ， 每 个 线程 在 所 属 类 型 中 有 一 个 优先 级 基 值 。 默 认 地 ， 优 先 级 基 值 为 一 个 类 型 的 优 
先 级 相对 值 NORMAL 。 每 个 优先 级 类 型 的 优先 级 基 值 为 : 

e REALTIME PRIORITY CLASS 一 24 

e HIGH PRIORITY CLASS — 13 
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e ABOVE NORMAL PRIORITY CLASS — 10 

e NORMAL PRIORITY CLASS — 8 

e BELOW NORMAL PRIORITY CLASS — 6 

e IDLE PRIORITY CLASS — 4 
线程 的 优先 级 初 值 通 常 为 线程 所 属 进程 的 优先 级 基 值 ， 但 是 通过 Windows API 的 函数 
SetThreadPriority() 也 可 修改 线程 的 优先 级 基 值 。 





图 5-22 Windows 线程 优先 级 

当 一 个 线程 的 时 间 片 用 完 时 ， 该 线程 被 中 断 。 如 果 线 程 属于 可 变 的 优先 级 类 型 ， 那么 
它 的 优先 级 就 被 降低 。 不 过 ， 该 优先 级 不 能 低 于 优先 级 基 值 。 降 低 优 先 级 可 以 限制 计算 密集 
型 线程 的 CPU 消耗 。 当 一 个 可 变 优 先 级 的 线程 从 等 待 中 释放 时 ， 调 度 程序 会 提升 其 优先 级 。 
提升 数量 取决 于 线程 等 待 什么 。 例 如 ， 等 待 键盘 IO 的 线程 将 得 到 一 个 较 大 提升 ; 而 等 待 磁 
盘 操 作 的 线程 将 得 到 一 个 中 等 提升 。 采 用 这 种 策略 ， 正 在 使 用 鼠标 和 窗口 的 线程 往往 得 到 很 
好 的 响应 时 间 。 这 也 使 得 IO 密集 型 线程 保持 IO 设备 忙碌 ， 同 时 允许 计算 密集 型 线程 使 用 
后 台 空闲 的 CPU 周期 。 此 外 ， 用 户 正在 交互 使 用 的 窗口 会 得 到 优先 级 提升 ， 以 便 改善 响应 
时 间 。 多 个 操作 系统 包括 UNIX， 采 用 这 种 策略 。 

当 用 户 运行 一 个 交互 程序 时 ， 系 统 需 要 提供 特别 好 的 表现 。 由 于 这 个 原因 ， 对 于 类 
NORMAL PRIORITY CLASS 的 进程 ，Windows 有 一 个 特殊 调度 规则 。Windows 将 这 类 
进程 分 成 两 种 : 一 种 前 台 进 程 (foreground process)， 屏 幕 上 已 选 的 进程 ; 另 一 种 后 台 进 程 
(background process)， 屏 幕 上 未 选 的 进程 。 当 一 个 进程 移 到 前 台 , Windows 增加 它 的 时 间 片 ， 
通常 是 原来 的 3 倍 。 这 个 增加 给 前 台 进 程 3 倍 的 时 间 来 运行 (在 被 抢占 前 )。 

Windows 7 引入 用 户 模式 调度 ( User-Mode Scheduling，UMS)， 人 允许 应 用 程序 在 内 核 外 
创建 和 管理 线程 。 因 此 ， 一 个 应 用 程序 在 不 涉及 内 核 调度 程序 的 情况 下 可 以 创建 和 调度 多 个 
线程 。 对 于 创建 大 量 线程 的 应 用 程序 ， 用 户 模式 的 线程 调度 比 内 核 模式 更 加 有 效 ， 因 为 不 需 
要 内 核 的 干预 。 

早期 版 本 的 Windows 提供 了 一 个 类 似 特 征 ( 称 为 纤 程 (fiber))， 人 允许 多 个 用 户 模 式 
线程 (A) 被 映射 到 单个 内 核 线程 。 然 而 ， 使 用 纤 程 实际 上 有 限制 。 一 个 纤 程 不 能 调用 
Windows API， 因 为 所 有 纤 程 共享 线程 环境 块 Thread Environment Block，TEB )。 这 会 产 
生 一 个 问题 : 当 Windows API 函数 将 状态 信息 放 到 一 个 纤 程 TEB 上 ， 另 一 个 纤 程 会 改写 这 
个 信息 。UMS 对 这 个 问题 的 解决 方法 是 ， 为 每 个 用 户 模式 线程 提供 它 自己 的 上 下 文 。 

此 外 ， 与 纤 程 不 同 的 是 ，UMS 一 般 不 是 直接 为 程序 员 使 用 的 。 编 写 用 户 模 式 调度 程序 
的 具体 细节 可 能 很 有 挑战 ， 而 且 UMS 并 不 包括 这 种 调度 程序 。 不 过 ， 调 度 程序 来 自 UMS 


164 第 二 部 分 进程 管理 


之 上 的 编程 语言 库 。 例 如 ， 微 软 提供 并 发 运行 时 库 ( Concurrency Runtime，ConcRT)， 这 是 
一 个 C++ 并 发 编程 框架 ， 用 于 在 多 核 处 理 器 上 设计 并 行 任务 (4.2 节 )。ConcRT 提供 用 户 模 
式 调 度 程 序 ， 并 能 将 程序 分 解 成 任务 ， 以 便 在 可 用 处 理 核 上 进行 调度 。UMS 的 更 多 细节 可 
参见 17.7.3.7 节 。 


5.7.3 BF: Solaris 调度 


Solaris 采用 基于 优先 级 的 线程 调度 。 每 个 线程 都 属于 6 个 类 型 之 一 : 

e 分 时 (Time Sharing, TS) 

e 24 (Interactive, IA) 

e 实时 (Real Time, RT) 

o 系统 (System, SYS) 

e 公平 分 享 (Fair Share, FSS) 

e 固定 优先 级 (Fixed Priority, FP) 
每 个 类 型 有 不 同 的 优先 级 和 不 同 的 调度 算法 。 

进程 的 默认 调度 类 型 为 分 时 。 分 时 类 型 的 调度 策略 动态 改变 优先 级 ， 并 且 通 过 多 级 反 
馈 队 列 分 配 不 同 长 度 的 时 间 片 。 默 认 情 况 下 ， 优 先 级 和 时 间 片 之 间 存 在 反比 关系 。 优 先 级 越 
高 ， 时 间 片 越 小 ;优先 级 越 低 ， 时 间 片 越 大 。 通 常 ， 交 互 进程 具有 更 高 的 优先 级 ; CPU 密 
集 型 进程 具有 较 低 的 优先 级 。 这 种 调度 策略 使 得 交互 进程 具有 良好 的 响应 时 间 ， 并 且 使 得 
CPU 密集 型 进程 具有 良好 的 吞吐 量 。 交 互 类 型 采用 与 分 时 类 型 一 样 的 调度 策略 ， 但 是 它 给 
窗口 应 用 程序 (如 由 KDE 或 GNOME 窗口 管理 器 创建 的 ) 更 高 优先 级 以 提高 性 能 。 





图 5-23 ”用 于 分 时 和 交互 线程 的 Solaris 调度 表 


图 5-23 为 用 于 调度 分 时 和 交互 线程 的 调度 表 。 这 两 个 调度 类 型 包括 60 个 优先 级 ; 但 为 
简便 起 见 ， 这 里 仅仅 列 出 少量 。 图 5-23 所 示 的 调度 表 包 含 以 下 字段 : 
237 © RER: 用 于 分 时 和 交互 类 型 的 类 型 优先 级 。 数 值 越 高 ， 优 先 级 越 大 。 
e 时 间 片 : 相关 优先 级 的 时 间 片 。 优 先 级 与 时 间 片 之 间 具 有 反比 关系 : 最 低 优先 级 ( 优 
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先 级 为 0 ) 具有 最 长 的 时 间 片 (200ms); 而 最 高 优先 级 (优先 级 为 59 ) 具有 最 短 的 时 
间 片 (20ms)。 
e 时 间 片 到 期 : 用 完全 部 时 间 片 而 未 阻塞 的 线程 所 得 到 的 新 优先 级 。 这 种 线程 属于 
CPU 密集 型 的 。 如 表 所 示 ， 这 些 线程 的 优先 级 降低 了 。 
e 从 睡眠 中 返回 : 从 睡眠 (如 等 待 VO) 中 返回 的 线程 的 优先 级 。 如 表 所 示 ， 当 线程 等 
待 的 IO 可 用 时 ， 它 的 优先 级 提高 到 50 ~ 59， 所 支持 的 调度 策略 为 交互 进程 提供 良 
好 的 响应 时 间 。 
实时 类 型 的 线程 具有 最 高 优先 级 。 实 时 进程 在 任何 其 他 类 型 的 进程 之 前 运行 。 这 种 安排 
允许 实时 进程 在 给 定时 间 内 保证 得 到 系统 响应 。 通 常 ， 只 有 很 少 的 进程 属于 实时 类 型 。 
Solaris 采用 系统 类 型 来 运行 内 核 线程 ， 如 调度 程序 和 调 页 服务 。 系 统 线程 的 优先 级 
一 旦 确定 ， 就 不 再 改变 。 系 统 类 型 专门 用 于 内 核 (在 内 核 模式 下 运行 的 用 户 进 程 不 属于 系 
统 类 )。 
Solaris 9 引入 了 固定 优先 级 类 和 公平 分 享 类 。 固 定 优先 级 类 中 的 线程 优先 级 范围 与 分 时 
类 的 相同 ; 但 是 ， 它 们 的 优先 级 是 不 能 动态 调整 的 。 公 平分 享 调度 类 采用 CPU 分 享 (share)， 
而 不 是 优先 级 ， 做 出 调度 决策 。CPU 分 享 表示 对 可 用 CPU 资源 的 授权 ， 且 可 分 配给 一 组 进 
f ( 称 为 项 目 (project) ) 。 
每 个 调度 类 型 都 包括 一 组 优先 级 。 然 而 ， 调 度 程 ”全 局 优先 级 调度 顺序 
序 将 类 型 相关 的 特定 优先 级 转换 为 全 局 优先 级 ， 并 且 最 高 人 19 Wi 
选择 运行 具有 最 高 全 局 优先 级 的 线程 。 所 选择 的 线程 160 | 
一 直 运 行 在 CPU 上 ， 直 到 阻塞 、 用 完了 时 间 片 或 被 1590 
更 高 优先 级 的 线程 抢占 。 如 果 多 个 线程 具有 相同 的 优 
先 级 ， 那 么 调度 程序 采用 循环 队列 。 图 5-24 说 明了 
6 种 调度 类 型 之 间 的 关系 ， 以 及 它们 如 何 映 射 到 全 局 
优先 级 。 注 意 ， 内 核 保留 10 个 线程 以 用 于 服务 中 断 。 
这 些 线程 不 属于 任何 调度 类 并 且 按 最 高 优先 级 执行 99 图 
(160 ~ 169 )。 如 前 所 述 ， 传 统 的 Solaris 使 用 了 多 对 
多 模型 (4.3.3 节 )， 但 是 从 Solaris 9 开始 换 成 了 一 对 
一 模型 ( 4.3.2 节 )。 


5.8 算法 评估 


针对 一 个 特定 系统 ， 我 们 如 何 选择 CPU 调度 算 
法 ? 正如 5.3 节 所 述 ， 调 度 算 法 有 很 多 ， 并 且 各 有 目 mit o 
己 的 参数 。 因 此 ， 选 择 算法 可 能 会 很 困难 。 图 5-24 Solaris 调度 

首要 问题 是 为 算法 选择 定义 准则 。 正 如 5.2 节 所 
述 ， 准 则 定义 通常 采用 CPU 使 用 率 、 响 应 时 间或 吞吐 量 等 。 为 了 选择 算法 ， 首 先 必须 定义 
这 些 参 数 的 相对 重要 性 。 准 则 可 以 包括 多 个 参数 ， 如 : 

o 最 大 化 CPU 使 用 率 ， 同 时 要 求 最 大 响应 时 间 为 1 秒 。 

。 最 大 化 吞吐 量 ， 比 如 要 求 (平均 ) 周转 时 间 与 总 的 执行 时 间 成 正比 。 

一 旦 定义 了 选择 准则 ， 就 要 评估 所 考虑 的 各 种 算法 。 接 下 来 ， 讨 论 可 以 采用 的 一 些 评估 
方法 。 
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5.8.1 确定 性 模型 


一 种 主要 类 别 的 评估 方法 称 为 分 析 评 估 法 (analytic evaluation)。 分 析 评 估 法 使 用 给 定 
算法 和 系统 负荷 ， 生 成 一 个 公式 或 数字 ， 以 便 评估 在 该 负荷 下 的 算法 性 能 。 

确定 性 模型 ( deterministic modeling) 为 一 种 分 析 评 估 类 型 。 这 种 方法 采用 特定 的 预先 
确定 的 负荷 ， 计 算 在 给 定 负荷 下 每 个 算法 的 性 能 。 例 如 ， 假 设 有 如 下 所 示 的 给 定 负 荷 。 所 有 
5 个 进程 按 所 给 顺序 在 时 间 0 到 达 ，CPU 执行 时 间 的 长 度 都 以 ms it: 


进程 执行 时 间 
7 10 
Ps 29 
P; 3 
P, 7 
Ps 12 


针对 这 组 进程 ， 考 虑 FCFS、SJF 和 RR 调度 算法 (时 间 片 为 10ms)。 哪 个 算法 可 能 给 出 最 小 
平均 等 待 时 间 ? 
XIF FCFS 算法 ， 进 程 执 行 如 下 所 示 : 





人 M S 6l 
Pi 的 等 待 时 间 是 0ms，P; 的 是 10ms，P; 的 是 39ms，Ps 的 是 42ms，P; 的 是 49ms。 因 此 ， 
平均 等 待 时 间 (0 + 10 + 39 + 42 + 49)/5 = 28ms。 


对 于 非 抢占 SIF 调度 ， 进 程 执行 如 下 所 示 : 





0 3 10 20 32 | 


Pi 的 等 待 时 间 是 10ms, P: 的 是 32ms, Ps 的 是 0ms，P 的 是 3ms, Ps 的 是 20ms。 因 此 , ¥ 
均等 待 时 间 (10 + 32 + 0 + 3 + 20)/5 = 13ms。 
对 于 RR 算法 ， 进 程 执行 如 下 所 示 : 





0 10 20 23 30 40 50 52 “61 


Pi 的 等 待 时 间 是 0ms，P; 的 是 32ms， Ps 的 是 20ms， P4 Hf 23ms, Ps 的 是 40ms。 因 此 ， 
平均 等 待 时 间 (0+32+20+23+40)/5=23ms。 

可 以 看 到 ， 在 这 种 情况 下 ，SJF 调度 的 平均 等 待 时 间 为 FCFS 调度 的 一 半 不 到 ; RR 算 
法 给 出 了 一 个 中 间 值 。 

确定 性 模型 简单 并 且 快 速 。 它 给 出 了 精确 的 数值 ， 允 许 比较 算法 。 然 而 ， 它 要 求 输入 为 
精确 数字 ， 而 且 它 的 答案 只 适用 于 这 个 情况 。 确 定性 模型 的 主要 用 途 在 于 描述 调度 算法 和 提 
供 例子 。 在 有 的 情况 下 ， 可 以 一 次 次 地 运行 同样 的 程序 ， 并 能 精确 测量 程序 的 处 理 要 求 ， 可 
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以 使 用 确定 性 模型 以 便 选 择 调 度 算法 。 另 外 ， 通 过 一 组 例子 ， 确 定 算法 也 可 表示 趋势 ， 以 供 
分 析 或 证 明 。 例 如 ， 对 于 刚才 所 述 的 环境 (所 有 进程 都 在 时 间 0 到 达 ， 且 它们 的 处 理 时 间 都 
已 知 )，SJF 策略 总 能 产生 最 小 的 等 待 时 间 。 


5.8.2 排队 模型 


许多 系统 运行 的 进程 每 天 都 在 变化 ， 因 此 没有 静态 的 进程 (或 时 间 ) 组 用 于 确定 性 建 
模 。 然 而 ,CPU 和 IO 的 执行 分 布 是 可 以 确定 的 。 这 些 分 布 可 以 测量 ,然后 近似 或 简单 估计 ; 
最 终 得 到 一 个 数学 公式 ， 用 于 表示 特定 CPU 执行 的 分 布 。 通 常 ， 这 种 分 布 是 指数 的 ， 可 以 
通过 均值 来 表示 。 类 似 地 ， 进 程 到 达 系 统 的 时 间 分 布 ， 即 到 达 时 间 分 布 ， 也 能 给 出 。 通 过 这 
两 种 分 布 ， 可 以 为 大 多 数 算法 计算 平均 吞吐 量 、 利 用 率 和 等 待 时 间 等 。 

计算 机 系统 可 描述 成 服务 器 网 络 。 每 个 服务 器 都 有 一 个 等 待 进程 队列 。CPU 是 具有 就 绪 队 
列 的 服务 器 ， 而 IO 系统 是 具有 设备 队列 的 服务 器 。 已 知 到 达 率 和 服务 率 ， 可 以 计算 使 用 率 、 平 
均 队 列 长 度 、 平 均等 待 时 间 等 。 这 种 研究 方法 称 为 排队 网 络 分 析 (queueing-network analysis) o 

作为 一 个 例子 ， 设 n 为 平均 队列 长 度 (不 包括 正在 服务 的 进程 )， WV 为 队列 的 平均 等 待 
时 间 ，4 为 新 进程 到 达 队 列 的 平均 到 达 率 (如 每 秒 3 个 进程 )。 这 样 ， 在 进程 等 待 的 丈 时 间 
A, AX 刺 个 新 进程 会 到 达 队 列 。 如 果 系 统 处 于 稳定 状态 ， 那 么 离开 队列 的 进程 数量 必须 等 
于 到 达 进 程 的 数量 。 因 此 

n=AxW 

这 个 公式 称 为 Little 公式 ， 特 别 有 用 ， 因 为 它 适 用 于 任何 调度 算法 和 到 达 分 布 。 

通过 Little 公式 ， 已 知 三 个 变量 中 的 两 个 ， 可 以 计算 第 三 个 。 例 如 ， 已 知 平均 每 秒 7 个 
进程 到 达 ， 并 且 队 列 里 通常 有 14 个 进程 ， 就 可 计算 进程 的 平均 等 待 时 间 ， 即 为 2 秒 。 

排队 分 析 在 比较 调度 算法 方面 虽然 有 用 ,但 是 也 有 限制 。 目 前 ， 能 够 处 理 的 算法 和 分 
布 还 是 相当 有 限 。 复 杂 算 法 或 分 布 的 数学 分 析 可 能 难于 处 理 。 因 此 ， 到 达 和 处 理 的 分 布 被 定 
义 成 不 现实 的 但 数学 上 易 处 理 的 形式 ， 而 且 也 需要 一 些 可 能 不 精确 的 独立 假设 。 由 于 这 些 困 
难 ， 队 列 模型 通常 只 是 现实 系统 的 近似 ， 计 算 结 果 的 准确 性 也 值得 商检 。 


5.8.3 ”仿真 


为 了 获得 更 为 精确 的 调度 算法 评价 ， 可 以 使 用 仿真 。 仿 真 涉及 对 计算 机 系统 进行 建 模 。 
软件 数据 结构 代表 了 系统 的 主要 组 成 部 分 。 仿 真 程序 有 一 个 代表 时 钟 的 变量 ; 随 着 这 个 变量 
值 的 增加 ， 模 拟 程序 修改 系统 状态 以 便 反 映 设备 、 进 程 和 调度 程序 的 活动 。 随 着 仿真 的 运 
IT, 表明 算 法 性 能 的 统计 数据 被 收集 并 打印 。 

驱动 仿真 的 数据 可 由 许多 方法 产生 。 最 为 常见 的 方法 是 : 通过 随机 数 生 成 器 ， 根 据 概率 
分 布 生 成 进程 、CPU 执行 、 到 达 时 间 、 离 开 时 间 等 。 分 布 可 以 数学 地 (均匀 的 、 指 数 的 、 泊 
松 的 ) 或 经 验 地 加 以 定义 。 如 果 要 经 验 地 定义 分 布 ， 那 么 应 对 研究 的 实际 系统 进行 测量 。 这 
些 结果 定义 实际 系统 的 事件 分 布 ， 然 后 这 种 分 布 可 以 用 于 驱动 仿真 。 

然而 ， 由 于 实际 系统 的 连续 事件 之 间 的 关联 ， 分 布 驱动 仿真 可 能 不 精确 。 频 率 分 布 只 
表明 每 个 事件 发 生 了 多 少 次 ， 它 并 不 能 表达 事件 发 生 的 顺序 。 为 了 纠正 这 个 问题 ， 可 以 使 
用 跟踪 磁带 (trace tape)。 通 过 监视 真实 系统 并 记录 事件 发 生 顺序 ， 可 以 建立 跟踪 磁带 (图 
5-25 )， 然 后 使 用 这 个 顺序 以 便 驱 动 仿真 。 跟 踪 磁 带 提 供 了 一 个 很 好 的 方法 ,在 针对 完全 相 
同 的 实际 输入 的 情况 下 ， 比 较 两 种 算法 。 这 种 方法 针对 给 定 输入 可 以 产 牛 精确 结果 。 
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FCFS 性 能 统计 


SJF 性 能 统计 


RR 性 能 统计 ( g=14 ) 





图 5-25 通过 仿真 来 评估 调度 算法 


仿真 代价 可 能 昂贵 ,通常 需要 数 小 时 的 计算 机 时 间 。 越 细致 的 仿真 提供 越 精确 的 结果 ， 
但 是 需要 的 计算 时 间 也 越 多 。 此 外 ， 跟 踪 磁 带 需要 大 量 的 存储 空间 。 最 后 ， 仿 真 程序 的 设 
计 、 编 码 、 调 试 等 工作 也 不 少 。 


5.8.4 实现 


即使 仿真 的 精确 度 也 是 有 限 的 。 用 于 评估 一 个 调度 算法 的 唯一 完全 精确 方式 是 : 对 它 进 
行 编程 ， 放 在 操作 系统 内 ， 并 且 观 测 它 如 何 工作 。 这 种 评价 方法 采用 实际 算法 、 实 际 系统 及 
实际 操作 条 件 来 进行 。 

这 种 方法 的 主要 困难 是 代价 高 。 所 产生 的 代价 不 仅 包括 算法 编程 、 操 作 系 统 修改 以 便 支 
持 算法 (以 及 相关 数据 结构 )， 而 且 包 括 用 户 对 不 断 改 变 操 作 系 统 的 反应 。 大 多 数 用 户 并 不 
关心 创建 更 好 的 操作 系统 ， 而 只 需要 执行 程序 并 使 用 结果 。 不 断 变 化 的 操作 系统 并 不 帮助 用 
户 完 成 他 们 的 工作 。 

另 一 个 困难 是 使 用 算法 的 环境 改变 。 环 境 变化 不 仅 包括 普通 变化 ， 如 新 程序 的 编写 和 问 
题 类 型 的 变化 ， 而 且 包 括 调度 程序 的 性 能 所 引起 的 。 如 果 小 进程 获得 优先 ， 那么 用 户 会 将 大 
进程 分 成 小 进程 的 组 合 。 如 果 交 互 进程 优先 于 非 交 互 进程 ， 那 么 用 户 可 能 切换 到 交互 进程 。 

例如 ， 研 究 人 员 设 计 了 一 个 系统 ， 它 通过 观察 终端 1/0 的 数量 来 自动 划分 进程 成 交互 的 
和 非 交 互 的 。 如 果 一 个 进程 在 一 秒 内 没有 对 终端 进行 输入 或 输出 ， 那 么 该 进程 就 被 划分 为 非 
交互 的 ， 并 移 到 较 低 优先 级 的 队列 。 针 对 这 个 政策 ， 有 个 程序 员 修 改 了 他 的 程序 ， 每 隔 一 秒 
不 到 的 时 间 就 输出 一 个 任意 字符 到 终端 上 。 虽 然 终端 输出 完全 没有 意义 ， 但 是 系统 给 他 的 程 
序 更 高 的 优先 级 。 

最 为 灵活 的 调度 算法 可 以 由 系统 管理 员 和 用 户 来 调整 ， 以 便 优 化 用 于 特定 应 用 程序 或 应 
用 程序 集 。 例 如 .运行 高 端 图 形 应 用 的 工作 站 ， 与 Web 服务 器 或 文件 服务 器 相 比 ， 具 有 完 
全 不 同 的 调度 需求 。 有 些 操作 系统 ， 特 别 是 有 些 UNIX 版 本 ， 人 允许 系统 管理 员 为 特定 系统 配 
置 来 调整 调度 参数 。 例 如 ，Solaris 提供 了 dispadmin 命令 ， 人 允许 系统 管理 员 修改 如 5.7.3 节 
所 述 的 调度 类 型 参数 。 
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另 一 种 方法 是 使 用 API 来 修改 进程 或 线程 的 优先 级 。Java、POSIX 和 Windows API 都 
提供 了 这 类 函数 。 这 种 方法 的 缺点 在 于 ， 某 个 系统 或 应 用 程序 的 性 能 调节 通常 不 会 导致 更 一 
般 情 况 的 性 能 改进 。 


5.9 小 结 


CPU 调度 的 任务 是 ， 从 就 绪 队 列 中 选择 一 个 等 待 进程 ， 并 为 其 分 配 CPU。 调 度 程序 分 
配 CPU 到 选中 的 进程 。 

先 来 先 服务 (FCFS) 调度 是 最 简单 的 调度 算法 ， 但 是 它 会 让 短 进程 等 待 很 长 的 进程 。 最 
短 作业 优先 (SJF) 调度 可 证 明 为 是 最 佳 的 ， 提 供 最 短 的 平均 等 待 时 间 。 然 而 ，SJF 调度 的 实 
现 是 难 的 ， 因 为 预测 下 一 个 CPU 执行 的 长 度 是 难 的 。SJF 算法 是 通用 优先 级 调度 算法 (简单 
分 配 CPU 到 具有 最 高 优先 级 的 进程 ) 的 一 个 特例 。 优 先 级 和 SIF 的 调度 可 能 产生 饥 俄 。 老 
化 技术 阻止 饥 俄 。 

轮转 (RR) 调度 更 适合 于 分 时 (交互 ) 系统。RR 调度 为 就 绪 队 列 的 首 个 进程 ， 分 配 gq 
个 时 间 单 位 ， 这 里 4 是 时 间 片 。 在 9 个 时 间 单 位 之 后 ， 如 果 该 进程 还 没有 释放 CPU, WA 
它 被 抢占 并 添加 到 就 绪 队 列 的 尾部 。 该 算法 的 主要 问题 是 选择 时 间 片 。 如 果 时 间 片 太 大 ， 那 
AZ RR 调度 就 成 了 FCFS 调度 ;如果 时 间 片 太 小 ,那么 由 于 上 下 文 切 换 引 起 的 调度 开销 就 
过 大 as 

FCFS 算法 是 非 抢占 的 ， 而 RR 算法 是 抢占 的 。SJF 和 优先 级 算法 可 以 是 抢占 的 ， 也 可 
以 是 非 抢 占 的 。 

多 级 队列 算法 允许 多 个 不 同 算法 用 于 不 同类 型 的 进程 。 最 常用 模型 包括 ; 使 用 RR 调 
度 的 前 台 交 互 队列 与 使 用 FCFS 调度 的 后 台 批 处 理 队 列 。 多 级 反馈 队列 允许 进程 在 队列 之 间 
迁移 。 

许多 现代 计算 机 系统 支持 多 处 理 器 ， 并 允许 每 个 处 理 器 独立 调度 。 通 常 ， 每 个 处 理 器 维 
护 各 自 的 、 私 有 的 、 可 运行 的 进程 (或 线程 ) 队列 。 与 多 处 理 器 调度 相关 的 问题 包括 处 理 器 
亲 和 性 、 负 载 平衡 和 多 核 处 理 等 。 

实时 计算 机 系统 要 求 在 截止 期 限 之 前 得 到 结果 ; 在 截止 期 限 之 后 得 到 结果 是 无 用 的 。 硬 
实时 系统 应 保证 ， 实 时 任务 在 截止 期 限 内 得 到 服务 。 软 实时 系统 的 限制 较 少 ， 分 配给 实时 任 
务 的 调度 优先 级 高 于 其 他 任务 。 

实时 调度 算法 包括 单调 速率 和 最 早 截止 优先 调度 。 单 调 速 率 调度 通常 为 需要 更 多 CPU 
的 任务 ， 分 配 更 高 优先 级 。 最 早 截 止 优先 调度 根据 即将 到 来 的 截止 期 限 来 分 配 优先 级 ; 截止 
期 限 越 早 ， 优 先 级 越 高 。 比 例 分 享 调度 将 处 理 器 时 间 划 分 为 股份 ， 并 为 每 个 进程 分 配 一 定数 
量 的 份额 ， 从 而 保证 每 个 进程 具有 按 比例 的 CPU 时 间 份 额 。POSIX Pthreads API 为 实时 调 
度 线程 ， 也 提供 各 种 特征 。 

支持 内 核 级 线程 的 操作 系统 应 调度 执行 线程 (而 不 是 进程 )。Solaris 和 Windows 就 是 这 
样 的 系统 。 这 两 个 系统 都 通过 基于 抢占 的 优先 级 调度 算法 来 调度 线程 ， 包 括 支 持 实时 线程 。 
Linux 进程 调度 程序 使 用 基于 优先 级 的 算法 ， 也 提供 实时 支持 。 这 三 个 操作 系统 的 调度 算法 
通常 偏向 支持 交互 式 进 程 (而 非 CPU 密集 型 进程 )。 

各 种 各 样 的 调度 算法 要 求 ， 我 们 应 有 方法 来 选择 算法 。 分 析 方 法 使 用 数学 分 析 法 以 确定 
算法 性 能 。 仿 真 方法 对 代表 性 的 进程 ， 采 用 调度 算法 仿真 ， 并 计算 性 能 ， 进 而 确定 优 劣 。 然 
而 ,仿真 最 多 只 能 提供 真实 系统 性 能 的 近似 值 。 评 估 调 度 算法 的 唯一 可 靠 技 术 是 ， 在 实际 系 
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统 上 实现 算法 ， 并 在 “现实 世界 ”环境 中 监视 性 能 。 





习题 

5.1 为 什么 区 分 CPU 密集 型 程序 和 LO 密集 型 程序 对 调度 程序 是 重要 的 ? 

5.2 ”讨论 下 列 几 对 调度 准则 在 某 些 情况 下 如 何冲 突 : 

a. CPU 利用 率 和 响应 时 间 
b. 平均 周转 时 间 和 最 大 等 待 时 间 
c. IO 设备 利用 率 和 CPU 利用 率 

5.3 ”实现 彩票 调度 ( lottery scheduling) 的 一 种 技术 工作 如 下 : 进程 分 得 一 个 彩票 ， 用 于 分 配 CPU 时 
间 。 当 需要 做 出 调度 时 ， 随 机 选择 一 个 彩票 ， 持 有 该 彩票 的 进程 获得 CPU。 操 作 系 统 BTV 采用 
了 彩票 调度 : 每 秒 抽 50 次 彩票 ， 每 个 彩票 的 中 奖 者 获得 20ms 的 CPU 时 间 (20ms x 50 = Is). 
请 描述 BTV 调度 程序 如 何 能 够 确保 ， 更 高 优先 级 的 线程 比较 低 优先 级 的 线程 得 到 更 多 的 CPU 
关注 。 

5.4 本 章 讨 论 针对 多 个 内 核 数 据 结 构 的 可 能 竞争 条 件 。 大 多 数 调 度 算法 采用 一 个 运行 队列 (run 
queue)， 用 于 维护 可 在 处 理 器 上 运行 的 进程 。 对 多 核 系统 ， 有 两 个 常用 选择 : 1) 每 个 处 理 
核 都 有 各 自 的 运行 队列 ， 或 2) 所 有 处 理 核 共享 一 个 运行 队列 。 这 些 方法 的 优点 和 缺点 是 
什么 ? 

5.5 假设 采用 指数 平均 公式 来 预测 下 个 CPU 执行 的 长 度 。 当 采用 如 下 参数 数值 时 ， 该 算法 的 含义 是 
什么 ? 

a. a = 0 FI to = 100ms b. a = 0.99 All to = 10ms 

5.6 ”轮转 调度 程序 的 一 个 变种 是 回归 轮转 (regressive round-robin) 调度 程序 。 这 个 调度 程序 为 每 个 进 
程 分 配 时 间 片 和 优先 级 。 时 间 片 的 初 值 为 S0ms。 然 而 ， 如 果 一 个 进程 获得 CPU 并 用 完 它 的 整个 
时 间 片 (不 会 因 1/0 而 阻塞 )， 那 么 它 的 时 间 片 会 增加 10ms 并 且 它 的 优先 级 会 提升 。( 进 程 的 时 
间 片 可 以 增加 到 最 多 100ms。) 如 果 一 个 进程 在 用 完 它 的 整个 时 间 片 之 前 阻塞 ， 那 么 它 的 时 间 片 
会 降低 Sms 而 它 的 优先 级 不 变 。 回 归 轮 转调 度 程 序 会 偏爱 哪 类 进程 (CPU 密集 型 的 或 IO 密集 型 
的 ) ? 请 解释 。 

5.7 假设 有 如 下 一 组 进程 ， 它 们 的 CPU 执行 时 间 以 毫秒 来 计算 : 

进程 执行 时 间 优先 级 
P, 2 2 
P> 1 1 
P; 8 4 
P; 4 2 
Ps 5 3 
假设 进程 按 Pi. Pas Pas Pas Ps 顺序 在 时 刻 0 到 达 。 
a. 画 出 4 个 Gantt 图 ， 分 别 演示 采用 每 种 调度 算法 (FCFS、SJF、 非 抢占 优先 级 (一 个 较 大 优先 
级 数值 意味 着 更 高 优先 级 ) 和 RR (时 间 片 =2 ) ) 的 进程 执行 。 
b. 每 个 进程 在 a 里 的 每 种 调度 算法 下 的 周转 时 间 是 多 少 ? 
c. 每 个 进程 在 a 里 的 每 种 调度 算法 下 的 等 待 时 间 是 多 少 ? 
d. 哪 一 种 调度 算法 的 平均 等 待 时 间 (对 所 有 进程 ) 最 小 ? 
58 下 面 的 进程 采用 抢占 轮转 调度 。 每 个 进程 都 分 配 一 个 优先 级 数值 ， 更 大 数值 表示 更 高 
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5.11 


5.13 


5.14 


5.16 


优先 级 。 除 了 这 些 进程 外 ， 系 统 还 有 一 个 空闲 任务 (idle task) CE PH Pia, A Ñ FE CPU 
资源 )。 这 个 任务 的 优先 级 为 0; 当 系 统 没有 其 他 可 运行 进程 时 ， 将 被 调度 运行 。 时 间 
片 的 长 度 是 10 个 单位 。 如 果 一 个 进程 被 更 高 优先 的 进程 抢占 ， 它 会 添加 到 队列 的 最 后 。 


a ee ee ae == 到 达 时 间 





a. 采用 Gantt 图 ， 演 示 进 程 的 调度 顺序 。 

b. 每 个 进程 的 周转 时 间 是 多 少 ? 

c. 每 个 进程 的 等 待 时 间 是 多 少 ? 

d. CPU 使 用 率 是 多 少 ? 

在 Linux 或 其 他 UNIX 系统 上 ， 命 令 nice 用 于 设置 进程 的 友好 值 。 请 解释 为 什么 有 些 系统 允许 
任何 用 户 分 配 一 个 大 于 或 等 于 0 的 友好 值 ， 而 只 允许 根 用 户 分 配 小 于 0 的 友好 值 。 


下 面 哪 种 调度 算法 可 能 导致 饥饿 ? 
a. 先 来 先 服务 b. 最 短 作 业 优 先 
c. 轮转 d. 优先 级 


假设 有 一 个 RR 调度 算法 的 变种 ， 它 的 就 绪 队 列 里 的 条 目 为 PCB 的 指针 。 

a, 将 同一 进程 的 两 个 指针 添加 到 就 绪 队 列 ， 有 什么 效果 ? 

b. 这 个 方案 的 两 个 主要 优点 和 两 个 缺点 是 什么 ? 

c. 在 不 采用 重复 指针 的 情况 下 ， 如 何 修改 基本 的 RR 调度 算法 以 达到 同样 的 效果 ? 

现 有 运行 10 个 IO 密集 型 任务 和 1 个 CPU 密集 型 任务 的 一 个 系统 。 假 设 IO 密集 型 任务 每 Ims 
的 CPU 计算 就 进行 一 次 IO 操作 ， 并 且 每 个 IO 操作 需要 10ms 来 完成 。 另 假设 上 下 文 切换 开 
销 是 0.1ms， 所 有 进程 都 是 长 时 间 运 行 的 任务 。 请 讨论 在 下 列 条 件 下 轮转 调度 程序 的 CPU 利 
用 率 : 

a. 时 间 片 为 lIms 

b. 时 间 片 为 10ms 

现 有 一 个 系统 采用 了 多 级 队列 调度 。 计 算 机 用 户 可 以 采用 何 种 策略 来 最 大 化 用 户 进程 分 得 的 
CPU 时 间 ? 

现 有 一 个 基于 动态 改变 优先 级 的 抢占 式 优先 级 调度 算法 。 优 先 级 的 数值 越 大 意味 着 优先 级 越 高 。 
当 一 个 进程 等 待 CPU 时 (在 就 绪 队 列 中 ,但 未 执行 )， 优先 级 以 a 速率 改变 ; 当 它 运行 时 ， 优 先 
级 以 B 速率 改变 。 在 进入 等 待 队 列 时 ， 所 有 进程 优先 级 设 为 0。 通过 参数 a 和 有 的 设置 ， 可 以 
得 到 许多 不 同调 度 算法 。 


a. 当 pra>0 时 ， 是 什么 算法 ? b. 当 a<p<0 时 ， 是 什么 算法 ? 
请 解释 如 下 调度 算法 在 有 利于 短 进程 的 方面 有 多 大 差异 : 
a. FCFS b. RR c. 多 级 反馈 队列 


采用 Windows 调度 算法 ， 求 出 如 下 线程 的 优先 级 数值 。 
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a. 类 REALTIME PRIORITY CLASS 的 线程 具有 相对 优先 级 NORMAL 
b. 类 ABOVE_ NORMAL PRIORITY CLASS 的 线程 具有 相对 优先 级 HIGHEST 
c. X BELOW NORMAL PRIORITY_CLASS 的 线程 具有 相对 优先 级 ABOVE_NORMAL 
5.17 假设 没有 线程 属于 类 型 REALTIME _PRIORITY_CLASS 而 且 也 没有 线程 得 到 优先 级 TIME_ 
CRITICAL。 在 Windows 调度 中 ， 什 么 组 合 的 优先 级 类 型 和 优先 级 具有 可 能 的 最 高 相对 优 
先 级 ? 
5.18 在 操作 系统 Solaris 中 ， 考 虑 分 时 线程 的 调度 算法 。 
a. 优先 级 为 15 的 线程 的 时 间 片 为 多 少 Gk ms 计 ) ? 如 果 优 先 级 为 40 呢 ? 
b. 假设 优先 级 为 50 的 线程 用 完了 它 的 全 部 时 间 片 而 不 阻塞 。 调 度 程 序 将 为 该 线程 分 配 什么 样 的 
新 优先 级 ? 
c. 假设 优先 级 为 20 的 线程 在 用 完 时 间 片 之 前 因 IO 而 阻塞 。 调 度 程 序 将 为 该 线程 分 配 什么 样 的 
新 优先 级 ? 
5.19 ”假设 两 个 任务 4 和 8 运行 在 一 个 Linux 系统 上 。4 和 8B 的 友好 值 分 别 为 -5 和 +5。 采 用 CFS 调 
度 程 序 作 为 指南 ， 针 对 如 下 情景 ， 请 描述 这 两 个 进程 的 vruntime 如 何 变 化 : 
o A FIB 都 是 CPU 密集 型 的 。 
o 4 是 1/0 密集 型 的 ，B 是 CPU 密集 型 的 。 
o 4 是 CPU 密集 型 的 ，B 是 IO 密集 型 的 。 
5.20 请 讨论 实时 系统 解决 优先 级 反 转 问题 的 方法 。 还 请 讨论 哪 种 解决 可 以 采用 比例 分 享 调度 程序 来 
实现 。 
5.21 在 什么 情况 下 ， 就 进程 截止 期 限 而 言 ， 单 调 速率 调度 不 如 最 早 截止 期 限 优先 调 度 ? 
5.22 ” 现 有 两 个 进程 P| A P, ME pi=50, t=25, p=75, b= 30. 
a. 这 两 个 进程 能 不 能 通过 单调 速率 调度 来 调度 ?采用 如 图 5-16 一 图 5-19 的 Gantt 图 ， 请 说 明 你 
的 答案 。 
b. 请 说 明 在 最 早 截止 期 限 优先 调度 下 这 两 个 进程 的 调度 。 
5.23 在 硬 实 时 系统 中 ， 中 断 和 调度 的 延迟 时 间 为 什么 应 是 有 界 的 ? 请 解释 。 


推荐 读物 

反馈 队列 最 早 实 现 于 CTSS 系统 (Corbato 等 ( 1962 ) )。Schrage ( 1967 ) 分 析 了 这 种 反馈 队列 调 
度 系统 。Kleinrock (1975) 提出 了 抢占 式 优先 级 调度 算法 (习题 5.23 )。Liu 和 Layland ( 1973 ) 讨论 
了 用 于 硬 实时 系统 的 调度 算法 ， 如 单调 速率 调度 和 最 早 截止 期 限 优先 调度 。 

Anderson 等 ( 1989 )、Lewis 和 Berg ( 1998 ) 以 及 Philbin 等 ( 1996 ) 讨论 了 线程 调度 。McNairy 
和 Bhatia ( 2005 ) 以 及 Kongetira 等 ( 2005 ) 分 析 了 多 核 调度 。 

Fisher ( 1981 ), Hall 等 (1996 ) 和 Lowney 等 (1993) 讨论 了 利用 以 前 进程 运行 时 间 的 调度 技术 。 

Henry ( 1984 )、Woodside ( 1986) 以 及 Kay 和 Lauder ( 1988 ) 讨论 了 公平 分 享 的 调度 程序 。 

Bach ( 1987 ) 介绍 了 UNIX V 操作 系统 使 用 的 调度 策略 ; McKusick 和 Neville-Neil ( 2005 ) 描述 
了 UNIX FreeBSD 5.2 的 ; Black ( 1990 ) 讨论 了 Mach 操作 系统 的 。Love ( 2010 ) 和 Mauerer ( 2008 ) 
描述 了 Linux 的 调度 。Faggioli 等 ( 2009 ) 介绍 了 为 Linux 内 核 增加 了 EDF ii]. Roberson ( 2003 ) 
详细 讨论 了 ULE i] BE. Mauro 和 McDougall (2007) 论述 了 Solaris 调度 。Russinovich 和 Solomon 
(2009) 讨论 了 Windows 调度 的 内 部 细节 。Butenhof (1997) 以 及 Lewis 和 Berg (1998) 介绍 了 
Pthreads 系统 的 调度 。Siddha 等 (2007 ) 分 析 了 多 核 系统 的 调度 挑战 。 
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同 步 





协作 进程 ( cooperating process) 能 与 系统 内 的 其 他 执行 进程 互相 影响 。 协 作 进 程 或 能 
直接 共享 逻辑 地 址 空间 〈 即 代码 和 数据 )， 或 能 通过 文件 或 消息 来 共享 数据 。 前 一 种 情况 可 
通过 线程 来 实现 ， 参 见 第 4 章 。 然 而 ， 共 享 数 据 的 并 发 访问 可 能 导致 数据 的 不 一 致 。 本 章 
讨论 多 种 机 制 ， 以 便 确保 共享 同一 逻辑 地 址 空间 的 协作 进程 的 有 序 执行 ， 从 而 维护 数据 的 
一 致 性 。 

本 章 目标 

o 引入 临界 区 问题 ， 它 的 解决 方案 可 以 用 于 确保 共享 数据 的 一 致 性 。 

© 讨论 临界 区 问题 的 软件 与 硬件 解决 方案 。 

© 分 析 进 程 同步 的 多 个 经 典 问题 。 

o 探讨 解决 进程 同步 问题 的 多 个 工具 。 


6.1 背景 


我 们 已 经 看 到 ， 进 程 可 以 并 发 或 并 行 执行 。3.2.2 节 引 入 了 进程 调度 ,并且 描述 了 进程 
调度 程序 如 何 快速 切换 进程 以 便 提供 并 发 执行 。 这 意味 着 ， 一 个 进程 在 另 一 个 进程 被 调度 前 
可 能 只 完成 了 部 分 执行 。 事 实 上 ， 一 个 进程 在 它 的 指令 流 上 的 任何 一 点 都 可 能 会 被 中 断 ， 并 
且 处 理 核 可 能 会 用 于 执行 其 他 进程 的 指令 。 此 外 ，4.2 节 引 入 了 并 行 执行 ， 即 代表 不 同 进程 
的 两 个 指令 流 同 时 执行 在 不 同 处 理 核 上 。 本 章 解释 ， 并 发 或 并 行 执行 如 何 影响 多 个 进程 共享 
数据 的 完整 性 。 

我 们 举例 说 明 这 是 如 何 发 生 的 。 第 3 章 讨论 了 一 个 系统 模型 ， 该 模型 包括 多 个 协作 的 顺 
序 的 进程 或 线程 ， 它 们 异步 执行 并 且 可 能 共享 数据 。 通 过 生产 者 - 消费 者 问题 (这 是 操作 系 
统 的 代表 性 问题 )， 举 例 说 明了 这 个 模型 。 尤 其 ，3.4.1 节 讨论 了 有 界 缓存 如 何 能 够 使 得 进程 
共享 内 存 。 

我 们 现在 回 到 有 界 缓冲 区 的 问题 。 正 如 已 指出 的 ， 原 来 的 解决 方案 允许 缓冲 区 同时 最 
多 只 有 BUFFER_SIZE -1 项。 假如 我 们 想 要 修改 这 一 算法 以 便 弥 补 这 个 缺陷 。 一 种 可 能 
方案 是 ， 增 加 一 个 整 型 变量 counter， 并 且 初 始 化 为 0。 每 当 向 缓冲 区 增加 一 项 时 ， 递 增 
counter; 每 当 从 缓冲 区 移 走 一 项 时 ， 递 减 counter。 生 产 者 进程 代码 可 以 修改 如 下 : 


while (true) { 
/* produce an item in next_produced */ 


while (counter == BUFFER SIZE) 
; /* do nothing */ 


buffer[in] = next_produced; 
in = (in + 1) % BUFFERSIZE; 
counter++; 


} 
消费 者 进程 代码 可 以 修改 如 下 : 
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while (true) { 
while (counter == 0) 
; /* do nothing */ 
next_consumed = buffer[out]; 


out = (out + 1) % BUFFER_SIZE; 
counter--; 


/* consume the item in next_consumed */ 


} 
虽然 以 上 所 示 的 生产 者 和 消费 者 程序 都 各 自 正 确 ， 但 是 在 并 发 执行 时 它们 可 能 不 能 正确 
执行 。 为 了 说 明 起 见 ， 假 设 变量 counter 的 值 现 为 5， 而 且 生产 者 进程 和 消费 者 进程 并 发 执 
行 语句 "counter++" 和 "counter--"。 通过 这 两 条 语句 的 执行 ， 变 量 counter 的 值 可 能 是 
4、5 或 61 不 过 ， 唯 一 正确 结果 是 counter == 5; 如 果 生 产 者 和 消费 者 分 开 执行 ， 则 可 正 
确 生成 。 
我 们 可 以 这 样 解释 ，counter 值 有 可 能 不 正确 。 注 意 , 语句 "counter++" 可 按 如 下 方 
式 通 过 机 器 语言 (在 一 个 典型 机 器 上 ) 来 实现 : 
register; = counter 
register, = register, + | 
counter = register, 
其 中 register, 为 CPU 本 地 寄存 器 。 类 似 地 ， 语 句 "counter--" 可 按 如 下 方式 来 实现 : 
register: = counter 
register: = register: — | 
counter = register2 
其 中 registers 为 CPU 本 地 寄存 器 。 尽 管 register 和 register. 可 以 为 同一 寄存 器 (如 累加 器 )， 
但 是 记 住 中 断 处 理 程 序 会 保存 和 恢复 该 寄存 器 的 内 容 ( 1.2.3 节 )。 
并 发 执行 "counter++" Ail "counter --" 相当 于 按 任意 顺序 来 交替 执行 上 面 表 示 的 低 
级 语句 〈 但 是 每 条 高 级 语句 内 的 顺序 是 不 变 的 )。 一 种 这 样 的 交错 如 下 : 


To: 生产 者 ”执行 register; = counter {register, = 5} 
Ti: 生产 者 ”执行 register; = register; + 1 {register, = 6} 
Tr: 消费 者 ”执行 register: = counter {register: = 5} 
T: 消费 者 ”执行 register: = register. — | {register. = 4} 
Ts: 生产 者 ”执行 counter = register) {counter = 6} 
Ts: 消费 者 ”执行 counter = register; {counter = 4} 


注意 ， 我 们 得 到 了 不 正确 的 状态 "counter == 4", 表示 缓冲 区 有 4 项 ,而 事实 上 有 5 项 。 
如 果 交 换 Ts 和 Ts 两 条 语句 ， 那 么 会 得 到 不 正确 的 状态 "counter == 6", 

因为 允许 两 个 进程 并 发 操作 变量 counter ， 所 以 得 到 不 正确 的 状态 。 像 这 样 的 情况 ， 即 
多 个 进程 并 发 访问 和 操作 同一 数据 并 且 执 行 结果 与 特定 访问 顺序 有 关 ， 称 为 竞争 条 件 (race 
condition)。 为 了 防止 竞争 条 件 ， 需 要 确保 一 次 只 有 一 个 进程 可 以 操作 变量 counter。 为 了 
做 出 这 种 保证 ， 要 求 这 些 进程 按 一 定 方式 来 同步 。 

由 于 操作 系统 的 不 同 部 分 都 操作 资源 ， 这 种 情况 在 系统 内 经 常 出 现 。 此 外 ， 正 如 前 面 章 
节 所 强调 的 ， 多 核 系统 的 日 益 流 行 强调 了 开发 多 线程 应 用 的 重要 性 。 在 这 类 应 用 中 ， 多 个 线 
程 ， 很 可 能 共享 数据 ， 并 在 不 同 的 处 理 核 上 并 行 运行 。 显 然 ， 我 们 要 求 ， 由 于 这 些 活 动 而 导 
致 的 任何 改变 不 会 互相 干扰 。 由 于 这 个 问题 的 重要 性 ， 本 章 的 大 部 分 都 是 ， 协 作 进程 如 何 进 
行进 程 同 步 (process synchronization) 和 进程 协调 (process coordination ) 。 


6.2 临界 区 问题 


我 们 从 讨论 所 谓 的 临界 区 问题 开始 考虑 进程 同步 。 假 设 某 个 系统 有 nn 个 进程 (Po, 
P1，...，Pn1}。 每 个 进程 上 有 一段 代码 ， 称 为 临界 区 (critical section)， 进 程 在 执行 该 区 时 可 能 
修改 公共 变量 、 更 新 一 个 表 、 写 一 个 文件 等 。 该 系统 的 重要 
特征 是 ， 当 一 个 进程 在 临界 区 内 执行 时 ， 其 他 进程 不 允许 在 


do { 


它们 的 临界 区 内 执行 。 也 就 是 说 ， 没 有 两 个 进程 可 以 在 它们 
的 临界 区 内 同时 执行 。 临 界 区 问题 ( critical-section problem) 临界 区 


是 ， 设 计 一 个 协议 以 便 协 作 进程 。 在 进入 临界 区 前 ， 每 个 进 退出 区 
程 应 请 求 许可 。 实 现 这 一 请 求 的 代码 区 段 称 为 进入 区 (entry 
section)。 临 界 区 之 后 可 以 有 退出 区 (exit section)， 其 他 代码 
为 剩余 区 (remainder section)。 一 个 典型 进程 Pj; 的 通用 结构 penile (rue): 
如 图 6-1 所 示 。 进 入 区 和 退出 区 被 框 起 来 ， 以 突出 这 些 代 码 ” 图 6-1 典型 进程 Pi 的 通用 结构 
区 段 的 重要 性 。 
临界 区 问题 的 解决 方案 应 满足 如 下 三 条 要 求 ; 
e BF (mutual exclusion): 如 果 进 程 Pi 在 其 临界 区 内 执行 ， 那么 其 他 进程 都 不 能 在 其 
临界 区 内 执行 。 
o 进步 (progress) : 如 果 没 有 进程 在 其 临界 区 内 执行 ， 并且 有 进程 需要 进入 临界 区 ， 那 
么 只 有 那些 不 在 剩余 区 内 执行 的 进程 可 以 参加 选择 ， 以 便 确定 谁 能 下 次 进入 临界 区 ， 
而 且 这 种 选择 不 能 无 限 推迟 。 
© 有 限 等 待 (bounded waiting): 从 一 个 进程 做 出 进入 临界 区 的 请 求 直 到 这 个 请 求 允许 
为 止 ， 其 他 进程 允许 进入 其 临界 区 的 次 数 具 有 上 限 。 
假定 每 个 进程 的 执行 速度 不 为 0。 然 而 ， 对 于 n 个 进程 的 相对 速度 不 作 任何 假设 。 
在 任 一 给 定时 间 点 ， 一 个 操作 系统 可 能 具有 多 个 处 于 内 核 态 的 活动 进程 。 因 此 ;操作 系 
统 的 实现 代码 (内 核 代 码 ) 可 能 出 现 竞 争 条 件 。 例 如 ， 有 一 个 内 核 数 据 结构 链表 ， 用 于 维护 
打开 系统 内 的 文件 。 当 打开 或 关闭 一 个 新 文件 时 ， 应 更 新 这 个 链表 (向 链表 增加 一 个 文件 ， 
或 从 链表 中 删除 一 个 文件 )。 如 果 两 个 进程 同时 打开 文件 ， 那 么 这 两 个 独立 的 更 新 操作 可 能 
产生 竞争 条 件 。 其 他 导致 竞争 条 件 的 内 核 数据 结构 包括 维护 内 存 分 配 、 维 护 进 程 列表 及 中 断 
处 理 等 的 数据 结构 。 内 核 开 发 人 员 应 确保 ， 操 作 系 统 没 有 这 些 竞争 条 件 。 
有 两 种 常用 方法 ， 用 于 处 理 操作 系统 的 临界 区 问题 : 抢占 式 内 核 preemptive kernel) 
与 非 抢 占 式 内 核 (nonpreemptive kernel)。 抢 占 式 内 核 允 许 处 于 内 核 模 式 的 进程 被 抢占 ， 非 
抢占 式 内 核 不 允许 处 于 内 核 模式 的 进程 被 抢占 。 处 于 内 核 模式 运行 的 进程 会 一 直 运 行 ， 直 到 
退出 内 核 模 式 、 阻 塞 或 自愿 放弃 CPU 控制 。 
显然 ， 非 抢占 式 内 核 的 数据 结构 基本 不 会 导致 竞争 条 件 ， 因 为 在 任 一 时 间 点 只 有 一 个 
进程 处 于 内 核 模 式 。 然 而 ， 对 于 抢占 式 内 核 ， 就 不 这 样 简单 了 ; 这 些 抢占 式 内 核 需要 认真 设 
计 ， 以 便 确保 内 核 数据 结 构 不 会 导致 竞争 条 件 。 对 于 SMP 体系 结构 ， 抢 占 式 内 核 更 难 设 计 ， 
因为 在 这 些 坏 境 下 两 个 处 于 内 核 态 的 进程 可 以 同时 运行 在 不 同 处 理 絮 上 。 
那么 ,为 何 会 有 人 更 喜欢 抢占 式 内 核 而 不 是 非 抢 占 式 内 核 呢 ?抢占 式 内 核 响 应 更 快 ， 因 
为 处 于 内 核 模式 的 进程 在 释放 CPU 之 前 不 会 运行 任意 长 的 时 间 。( 当然 ， 在 内 核 模式 下 持续 
运行 很 长 时 间 的 风险 可 以 通过 设计 内 核 代 码 来 最 小 化 。) 再 者 ,抢占 式 内 核 更 适用 于 实时 编 
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程 ， 因 为 它 能 允许 实时 进程 抢占 在 内 核 模 态 下 运行 的 其 他 进程 。 本 章 后 面 将 探讨 多 种 操作 系 
统 如 何 管理 抢占 式 内 核 。 


6.3 Peterson 解决 方案 


下 面 ， 说 明 一 个 经 典 的 基于 软件 的 临界 区 问题 的 解决 方案 ， 称 为 Peterson 解决 方案 。 
由 于 现代 计算 机 执行 基本 机 器 语言 指令 (如 load 与 store) 的 不 同方 式 ， 不 能 确保 Peterson 
解决 方案 能 够 正确 运行 在 这 类 机 器 上 。 然 而 ， 由 于 这 一 算法 提供 了 解决 临界 区 问题 的 一 个 很 
好 的 算法 ， 并 能 说 明 满 足 互 斥 、 进 步 、 有 限 等 待 等 要 求 的 软件 设计 的 复杂 性 ， 所 以 这 里 还 是 
介绍 这 一 解决 方案 。 

Peterson 解决 方案 适用 于 两 个 进程 交错 执行 临界 区 与 剩余 区 。 两 个 进程 为 Pe 和 已。 为 
了 方便 ， 当 使 用 Pi 时， 用 PP 来 表示 另 一 个 进程 , 即 j == 1 -i 

Peterson 解答 要 求 两 个 进程 共享 两 个 数据 项 : 


int turn; 
boolean flag[2]; 


变量 turn 表示 哪个 进程 可 以 进入 临界 区 。 即 如 果 turn == i, 那么 进程 P 允许 在 临界 区 内 
执行 。 数 组 flag 表示 哪个 进程 准备 进入 临界 区 。 例 如 ， 如 果 flag[i] 为 true， 那 么 进程 
Pi 准备 进入 临界 区 。 在 解释 了 这 些 数据 结构 后 ， 就 可 
以 分 析 如 图 6-2 所 示 的 算法 。 ae 

为 了 进入 临界 区 ， 进 程 P, 首先 设置 flag[i] 的 a 作 
值 为 true ; 并 且 设置 turn 的 值 为 j， 从 而 表示 如 果 dake Gna Zi 
男 一 个 进程 PP 希望 进入 临界 区 ， 那么 Pj 能 够 进入 。 
如 果 两 个 进程 同时 试图 进入 ， 那 么 turn 会 几乎 在 同 
时 设置 成 和 j。 只 有 一 个 赋值 语句 的 结果 会 保持 ; 
另 一 个 也 会 设置 ， 但 会 立即 被 重 写 。 变 量 turn 的 最 剩余 区 
终 值 决定 了 哪个 进程 允许 先进 入 临界 区 。 sina sce 

现在 我 们 证 明 这 一 解答 是 正确 的 。 这 需要 证 明 : 

1. 互 斥 成 立 。 

2. 进步 要 求 满足 。 

3. 有 限 等 待 要 求 满足 。 

为 了 证 明 第 1 点， 应 注意 到 ， 只 有 当 flag[j] == false 或 者 turn == it}, HE 
Pi 才能 进入 临界 区 。 而 且 ， 注 意 ， 如 果 两 个 进程 同时 在 临界 区 内 执行 ， 那 么 flag[0] == 
flag[1] == true。 这 两 点 意味 着 ，Po 和 Pl 不 可 能 同时 成 功 地 执行 它们 的 while 语句 ， 因 
为 turn 的 值 只 可 能 为 0 或 1， 而 不 可 能 同时 为 两 个 值 。 因 此 ， 只 有 一 个 进程 如 P;， 能 成 功 
地 执行 完 while 语句 ， 而 进程 Pi 应 至 少 再 一 次 执行 语句 ("turn == j")。 而 且 ， 只 要 Pj 在 
临界 区 内 ，flag[j]==true 和 turn==j 就 同时 成 立 。 结 果 ， 互 斥 成 立 。 

为 了 证 明 第 2 点 和 第 3 点 ， 应 注意 到 ， 只 有 条 件 flag[j]==true 和 turn==j 成 立 ， 进 
程 Pi; 才 会 陷 人 while 循环 语句 ， 且 Pi 就 能 被 阻止 进入 临界 区 。 如 果 Pj 不 准备 进入 临界 区 ， 
那么 flag[j] == false, Pi 能 进入 临界 区 。 如 果 记 已 设置 flag[j] 为 true 且 也 在 执行 
while 语句 ,那么 turn == j 或 turn == i。 如 果 turn == i, MAP HAMAR. WH 
turn == j， 那 么 已 进入 临界 区 。 然 而 ， 当 局 退出 临界 区 时 ， 它 会 设置 flag[j] W false, 
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以 允许 Pi 进入 临界 区 。 如 果 P 重新 设置 flag[j] 为 true， 那 么 它 也 应 设置 turn Hi, A 
此 由 于 进程 Pi 执行 while 语句 时 并 不 改变 变量 turn 的 值 ， 所 以 Pi 会 进入 临界 区 (进步 )， 
而 且 Pi 在 Pj; 进入 临界 区 后 最 多 一 次 就 能 进入 (有 限 等 待 )。 


6.4 硬件 同步 


我 们 刚刚 描述 了 临界 区 问题 的 一 种 基于 软件 的 解答 。 然 而 ， 正 如 所 提 到 的 ， 基 于 软件 
的 解决 方案 (如 Peterson 解答 ) 并 不 保证 在 现代 计算 机 体系 结构 上 正确 工作 。 下 面 ， 我们 探 
讨 临界 区 问题 的 多 个 解答 ， 这 包括 内 核 开 发 人 员 和 应 用 程序 员 采 用 的 硬件 和 软件 API 技术 。 
所 有 这 些 解 答 都 是 基于 加 锁 Clocking) 为 前 提 的 ， 即 通过 锁 来 保护 临界 区 。 正 如 将 会 看 到 
的 ， 这 种 锁 的 设计 可 能 相当 复杂 。 

首先 ， 我们 介绍 一 些 简单 的 硬件 指令 (许多 系统 都 具有 的 )， 并 有 效 使 用 它们 来 解决 临 
界 区 问题 。 硬 件 功能 能 够 简化 编程 工作 而 且 提 高 系统 效率 。 

对 于 单 处理 器 环境 ， 临 界 区 问题 可 简单 地 加 以 解决 : 在 修改 共享 变量 时 只 要 禁止 中 断 出 
现 。 这 样 ， 就 能 确保 当前 指令 流 可 以 有 序 执行 ， 且 不 会 被 抢占 。 由 于 不 可 能 执行 其 他 指令 ， 
所 以 共享 变量 不 会 被 意外 地 修改 。 这 种 方法 往往 为 非 抢 占 式 内 核 所 采用 。 

然而 ， 在 多 处 理 器 环境 下 ， 这 种 解决 方案 是 不 可 行 的 。 多 处 理 器 的 中 断 禁 止 会 很 耗 时 ， 
因为 消息 要 传递 到 所 有 处 理 器 。 消 息 传 递 会 延迟 进入 临界 区 ， 并 降低 系统 效率 。 另 外 ， 如 果 
系统 时 钟 是 通过 中 断 来 更 新 的 ， 那 么 它 也 会 受到 影响 。 

因此 ， 许 多 现代 系统 提供 特殊 硬件 指令 ， 用 于 检测 和 修改 字 的 内 容 ， 或 者 用 于 原子 地 
(atomically) 交换 两 个 字 (作为 不 可 中 断 的 指令 )。 我 们 可 以 采用 这 些 特殊 指令 ， 相 对 简单 
地 解决 临界 区 问题 。 这 里 ， 我 们 不 是 讨论 特定 机 器 的 特定 指令 ， 而 是 通过 指令 test_and_ 
set() 和 compare_and_swap() 抽象 了 这 些 指 令 背 后 的 主要 概念 。 

指令 test_and_set() 可 以 按 图 6-3 所 示 来 定义 。 这 一 指令 的 重要 特征 是 ， 它 的 执行 是 
原子 的 。 因 此 ， 如 果 两 个 指令 test_and_set() 同时 执行 在 不 同 CPU E, 那么 它们 会 按 任 
意 次 序 来 顺序 执行 。 如 果 一 台 机 器 支持 指令 test_and_set()， 那 么 可 以 这 样 实现 互 斥 : F 
明 一 个 布尔 变量 lock, PMLA false, HFE Pi 的 结构 如 图 6-4 所 示 。 

do 


{ 
while (test_and_set (&lock)) 
; /* do nothing */ 


boolean test_and_set (boolean *target) { /* critical section */ 


boolean rv = *target; 
*target = true; lock = false; 


return rv; /* remainder section */ 
} while (true); 


图 6-3 指令 test and set() 的 定义 图 6-4 采用 指令 test and set() 的 互 斥 实现 





与 指令 test_and_set() 不 同 ， 指 令 compare_and_swap() 需要 三 个 操作 数 ; 它 的 定义 
如 图 6-5 所 示 。 只 有 当 表 达 式 (*value == expected) 为 真 时 ， 操 作 数 value 才 被 设置 成 
new_value。 不 管 怎样 ， 指 令 compare_and_swap() 总 是 返回 变量 value 的 原始 值 。 与 指令 
test_and_set() 一 样 ， 指 令 compare_and_swap() 的 执行 是 原子 的 。 可 以 这 样 实现 互 斥 : 声 
明 一 个 全 局 布尔 变量 1ock， 并 初始 化 为 0。 调用 compare_and_swap() 的 第 一 个 进程 将 lock 
设置 为 1。 然 后 ， 它 会 进入 它 的 临界 区 ， 因 为 lock 的 原始 值 等 于 它 所 期 待 的 值 。 随 后 的 调用 
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compare_and_swap() 不 会 成 功 的 ， 因 为 现在 lock 不 等 于 预期 值 的 0。 当 一 个 进程 退出 临界 


区 时 ， 它 将 lock 设 回 到 0， 以 允许 男 一 个 进程 进入 临界 区 。 进 程 Pi 的 结构 如 图 6-6 所 示 。 


int compare_and_swap(int *value, int expected, int new_value) { 
int temp = *value; 


if (*value == expected) 


*value = new_value; 


return temp; 


} 





图 6-5 #4 compare and swap() 的 定义 


虽然 这 些 算 法 满足 互 斥 要 求 ， 但 是 并 未 满足 有 限 等 待 要 求 。 在 图 6-7 中 ,我 们 提出 另 一 
种 基于 test_and_set() 的 算法 ， 它 满足 所 有 临界 区 的 要 求 。 共 用 的 数据 结构 如 下 : 


boolean waiting[n] ; 
boolean lock; 


这 些 数据 结构 初始 化 为 false。 为 了 证 明 满 足 互 斥 要 求 ， 注意， 只 有 waitingli] == false 
或 者 key==flase ht, HERE P; 才 能 进入 临界 区 。 只 有 当 执 行 test_and_set() At, key 的 值 
才 变 成 false。 执 行 test_and_set() 的 第 一 个 进程 会 发 现 key == false; 所 有 其 他 进程 
必须 等 待 。 只 有 另 一 进程 离开 临界 区 时 ， 变 量 waiting[i] 的 值 才能 变 成 false ; 每 次 只 有 
一 个 waiting[i] 被 设置 为 false， 以 满足 互 斥 要 求 。 





do { 
waiting[i] = true; 
key = true; 
while (waiting[i] && key) 
key = test_and_ set (&lock); 
waiting[i] = false; 


/* critical section */ 


J 
while ((j != i) && !waiting[j]) 


{ 
while (compare_and_swap(&lock, 0, 1) != 0) j= G+) 4a; 
; /* do nothing */ 


if (j == 1) 
/* critical section */ lock = false; 
else 
lock = 0; waiting[j] = false; 


/* remainder section */ /* remainder section */ 
} while (true); } while (true); 





图 6-6 采用 指令 compare and swap() 的 互 斥 实现 图 6-7 采用 test and set() MA ABSA 


为 了 证 明 满 足 进步 要 求 ， 注 意 ， 以 上 有 关 互 斥 的 论证 也 适用 ， 因 为 进程 在 退出 临界 区 时 或 
将 lock 设 为 false， 或 将 waiting[j] 设 为 false。 这 两 种 情况 都 允许 等 待 进程 进入 临界 区 。 

为 了 证 明 满 足 有 限 等 待 ， 注 意 ， 当 一 个 进程 退出 临界 区 时 ， 它 会 循环 扫 撒 数组 (i+ 1，i+ 
2,，…,，n 一 1，0,…, i 一 1)， 并 根据 这 一 顺序 而 指派 第 一 个 等 待 进程 (waitting[j] ==true) 
作为 下 次 进入 临界 区 的 进程 。 因 此 ， 任 何等 待 进入 临界 区 的 进程 只 需 等 待 n 一 1 次 。 

有 关 原 子 指令 test_and_set() 和 compare_and_swap() 的 实现 细节 ， 可 参见 有 关 计 
算 机 体系 结构 方面 的 书籍 。 
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6.5 HRH 


临界 区 问题 的 基于 硬件 的 解决 方案 (如 6.4 节 所 述 的 ) 不 但 复杂 ， 而 且 不 能 为 程序 员 直 
接 使 用 。 因 此 ， 操 作 系 统 设计 人 员 构 建 软件 工具 ， 以 
解决 临界 区 问题 。 最 简单 的 工具 就 是 互 斥 锁 ( mutex 
lock) (事实 上 ，mutex 来 源 于 mutual exclusion ) 。 我 
们 采用 互 斥 锁 保 护 临 界 区 ， 从 而 防止 竞争 条 件 。 也 就 
是 说 ， 一 个 进程 在 进入 临界 区 时 应 得 到 锁 ; 它 在 退出 
临界 区 时 释放 锁 。 函 数 acquire() 获取 锁 ， 而 函数 
release() 释放 锁 ， 见 图 6-8。 

每 个 互 斥 锁 有 一 个 布尔 变量 available， 它 } while (true); 

的 值 表示 锁 是 否 可 用 。 如 果 锁 是 可 用 的 ， 那么 调用 
acquire() 会 成 功 ,并 且 锁 不 再 可 用 。 当 一 个 进程 坛 6 PASSE ARMS 
图 获取 不 可 用 的 锁 时 ， 它 会 阻塞 ， 直 到 锁 被 释放 。 
按 如 下 定义 acquire(); 
acquire() { 
while (!available) 


; /* busy wait */ 
available = false;; 





按 如 下 定义 release(): 


release() { 
available = true; 


对 acquire() 或 release() 的 调用 必须 原子 地 执行 。 因 此 ， 互 斥 锁 通 常 采 用 如 6.4 节 所 述 
的 硬件 机 制 来 实现 ; 关于 具体 技术 细节 ， 我 们 留 作 习题 。 

这 里 所 给 实现 的 主要 缺点 是 ， 它 需要 忙 等 待 busy waiting)。 当 有 一 个 进程 在 临界 区 
中 ， 任 何其 他 进程 在 进入 临界 区 时 必须 连续 循环 地 调用 acquire() 。 其 实 ， 这 种 类 型 的 互 斥 
锁 也 被 称 为 自 旋 锁 (spinlock)， 因 为 进程 不 停 地 旋转 ， 以 等 待 锁 变 得 可 用 。( 在 前 面 采用 指令 
test_and_set() 和 compare_and_swap() 的 那些 例子 中 ， 有 同样 的 问题 。) 在 实际 多 道 程 
序 系统 中 ， 即 当 多 个 进程 共享 同一 CPU 时 ， 这 种 连续 循环 显然 是 个 问题 。 忙 等 待 浪费 CPU 
周期 ， 而 这 原本 可 以 有 效用 于 其 他 进程 。 

不 过 ， 自 旋 锁 确实 有 一 个 优点 : 当 进 程 在 等 待 锁 时 ， 没 有 上 下 文 切换 (上 下 文 切换 可 能 需 
要 相当 长 的 时 间 )。 因 此 ， 当 使 用 锁 的 时 间 较 短 时 ， 自 旋 锁 还 是 有 用 的 。 自 旋 锁 通常 用 于 多 处 
理 器 系统 ， 一 个 线程 可 以 在 一 个 处 理 器 上 “旋转 " ， 而 其 他 线程 在 其 他 处 理 器 上 执行 临界 区 。 

本 章 ( 6.7 节 )， 将 会 研究 如 何 使 用 互 斥 锁 解 决 经 典 同 步 问题 ， 还 会 讨论 多 个 操作 系统 以 
及 Pthreads 如 何 使 用 这 些 锁 。 


6.6 信和 号 量 
互 斥 锁 ， 我 们 刚刚 讨论 过 了 ,通常 认为 是 最 简单 的 同步 工具 。 本 节 将 会 讨论 一 个 更 鲁 棒 
的 工具 ， 它 的 功能 类 似 于 互 斥 锁 ， 但 是 它 能 提供 更 为 高 级 的 方法 ， 以 便 进 程 能 够 同步 活动 。 
一 个 信号 量 (semaphore) S 是 个 整 型 变量 ， 它 除了 初始 化 外 只 能 通过 两 个 标准 原子 操 
作 : wait() 和 signal() 来 访问 。 操 作 wait() 最 初 称 为 P (荷兰 语 proberen, 测试) ; 操作 
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signal() 最 初 称 为 V (荷兰 语 verhogen， 增 加 )。 可 按 如 下 来 定义 wait() : 
wait(S) { 
while (S <=0) 
; // busy wait 
S--; 
} 
可 按 如 下 来 定义 signal() : 
signal(S) { 
S++; 
} 
在 wait() 和 signal() 操作 中 ， 信 和 号 量 整数 值 的 修改 应 不 可 分 割地 执行 。 也 就 是 说 ， 
当 一 个 进程 修改 信号 量 值 时 ， 没 有 其 他 进程 能 够 同时 修改 同一 信号 量 的 值 。 另 外 ， 对 于 
wait(S), S 整数 值 的 测试 4S <0) 和 修改 (S--)， 也 不 能 被 中 断 。 如 何 实现 这 些 操 作 ， 将 
在 6.6.2 节 中 讨论 。 现 在 , 我们 看 看 如 何 使 用 信号 量 。 


6.6.1 信号 量 的 使 用 


操作 系统 通常 区 分 计数 信号 量 与 二 进 制 信号 量 。 计 数 信号 量 (counting semaphore) 的 值 
不 受 限 制 ， 而 二 进 制 信号 量 (binary semaphore) 的 值 只 能 为 0 或 1。 因此 ， 二 进 制 信号 量 类 
似 于 互 斥 锁 。 事 实 上 ， 在 没有 提供 互 斥 锁 的 系统 上 ， 可 以 使 用 二 进 制 信号 量 来 提供 互 斥 。 

计数 信号 量 可 以 用 于 控制 访问 具有 多 个 实例 的 某 种 资源 。 信 号 量 的 初 值 为 可 用 资源 数 
量 。 当 进程 需要 使 用 资源 时 ， 需 要 对 该 信号 量 执行 wait() 操作 (减少 信号 量 的 计数 )。 当 进 
程 释 放 资 源 时 ， 需 要 对 该 信号 量 执行 signal() 操作 (增加 信号 量 的 计数 )。 当 信号 量 的 计数 
为 0 时 ， 所 有 资源 都 在 使 用 中 。 之 后 ， 需 要 使 用 资源 的 进程 将 会 阻塞 ， 直 到 计数 大 于 0。 

我 们 也 可 以 使 用 信和 号 量 来 解决 各 种 同步 问题 。 例 如 ， 现 有 两 个 并 发 运行 的 进程 : Pi 有 
语句 51 而 尸 有 语句 9%。 假 设 要 求 只 有 在 8 执行 后 才能 执行 5,。 我 们 可 以 轻松 实现 这 一 要 
RK: 让 Pi 和 忆 共享 同一 信号 量 synch， 并 且 初 始 化 为 0。 在 进程 PL, MAWA: 


Si; 
signal (synch) ; 


在 进程 P, 中 ,插入 语句 : 


wait (synch) ; 
S2; 


因为 synch 初始 化 为 0， 只 有 在 P, 调用 signal(synch) BI 5 语句 执行 之 后 ，P; 才 会 执行 So 


6.6.2 ”信号 量 的 实现 


回想 一 下 ，6.5 节 讨论 的 互 斥 锁 实 现 具 有 忙 等 待 。 刚 才 描 述 的 信和 号 量 操作 wait O 和 
signal() ， 也 有 同样 问题 。 为 了 克服 忙 等 待 需要 ， 可 以 这 样 修改 信号 量 操作 wait() 和 signal() 
的 定义 : 当 一 个 进程 执行 操作 wait() 并 且 发 现 信号 量 值 不 为 正 时 ， 它 必须 等 待 。 然 而 ， 该 进程 
不 是 忙 等 待 而 是 阻塞 自己 。 阻 塞 操 作 将 一 个 进程 放 到 与 信号 量 相关 的 等 待 队列 中 ， 并 且 将 该 进程 
状态 切换 成 等 待 状态 。 然 后 ， 控 制 转 到 CPU 调度 程序 ， 以 便 选择 执行 男 一 个 进程 。 

等 待 信号 量 S 而 阻塞 的 进程 ， 在 其 他 进程 执行 操作 signal() 后 ， 应 被 重新 执行 。 进 程 
的 重新 执行 是 通过 操作 wakeup() 来 进行 的 ， 它 将 进程 从 等 待 状态 改 为 就 绪 状 态 。 然 而 ， 进 
程 被 添加 到 就 绪 队 列 。( 取 决 于 CPU 调度 算法 ，CPU 可 能 会 也 可 能 不 会 从 正在 运行 的 进程 切 
换 到 新 的 就 绪 进 程 。) 
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为 了 实现 这 样 定义 的 信号 量 ， 我 们 按 如 下 定义 信号 量 : 
typedef struct { 

int value; 

struct process *list; 
} semaphore; 


每 个 信号 量 都 有 一 个 整数 value 和 一 个 进程 链表 list。 当 一 个 进程 必须 等 待 信号 量 时 ， 就 
被 添加 到 进程 链表 。 操 作 signal 从 等 待 进程 链表 上 取 走 一 个 进程 ， 并 加 以 唤醒 。 
现在 ， 信 和 号 量 操作 wait() 可 以 定义 如 下 : 
wait(semaphore *S) { 
S->value--; 
if (S->value < 0) { 
add this process to S->list; 
block(); 


} 
} 


而 信和 号 量 操作 signal() 可 定义 如 下 : 
signal(semaphore *S) { 
S->value++; 
if (S->value <= 0) { 
remove a process P from S->list; 
wakeup (P) ; 
} 
} 


操作 block() 挂 起 调用 它 的 进程 。 操 作 wakeup (P) 重新 启动 阻塞 进程 P 的 执行 。 这 两 个 操 
作 都 是 由 操作 系统 作为 基本 系统 调用 来 提供 的 。 

注意 ， 这 样 实现 的 信号 量 的 值 可 以 是 负数 ， 而 在 具有 忙 等 待 的 信和 号 量 经 典 定义 下 ， 信 和 号 
量 的 值 不 能 为 负 。 如 果 信 号 量 的 值 为 负 ， 那 么 它 的 绝对 值 就 是 等 待 它 的 进程 数 。 出 现 这 种 情 
况 源 于 ， 在 实现 操作 wait() 时 互 换 了 递减 和 测试 的 顺序 。 

通过 每 个 进程 控制 块 PCB 的 一 个 链接 字段 ， 等 待 进程 的 链表 可 以 轻松 实现 。 每 个 信号 
量 包括 一 个 整数 和 一 个 PCB 链表 指针 。 向 链表 中 增加 和 删除 进程 以 便 确 保有 限 等 待 的 一 种 
方法 采用 FIFO 队列 ， 这 里 的 信号 量 包括 队列 的 首 指针 和 尾 指 针 。 然 而 ， 一 般 来 说 ， 链 表 可 
以 使 用 任何 排队 策略 。 信 号 量 的 正确 使 用 不 依赖 于 信号 量 链表 的 特定 排队 策略 。 

关键 的 是 ， 信 和 号 量 操作 应 原子 执行 。 我 们 应 保证 : 对 同一 信号 量 ， 没 有 两 个 进程 可 以 同 
时 执行 操作 wait() 和 signal()。 这 是 一 个 临界 区 问题 。 对 于 单 处 理 器 环境 ， 在 执行 操作 
wait() 和 signal() 时 ， 可 以 简单 禁止 中 断 。 这 种 方案 在 单 处 理 器 环境 下 能 工作 ， 这 是 因 
为 一 旦 中 断 被 禁用 ， 不 同 进 程 指令 不 会 交织 在 一 起 。 只 有 当前 运行 进程 一 直 执行 ， 直 到 中 断 
被 重新 启用 并 且 调 度 程序 重新 获得 控制 。 

对 于 多 处 理 器 环境 ， 每 个 处 理 器 的 中 断 都 应 被 禁止 ; 和 否则， 在 不 同 处 理 器 上 不 同 的 运行 
进程 可 能 会 以 任意 不 同方 式 一 起 交织 执行 。 每 个 处 理 器 中 断 的 禁止 会 很 困难 ， 也 会 严重 影响 
性 能 。 因 此 ，SMP 系统 应 提供 其 他 加 锁 技 术 ， 如 compare_and_swap() 或 自 旋 锁 ， 以 确保 
wait() 与 signal() 原子 执行 。 

重要 的 是 要 承认 ， 对 于 这 里 定义 的 操作 wait() 和 signal()， 我 们 并 没有 完全 取消 忙 
等 待 。 我 们 只 是 将 忙 等 待 从 进入 区 移 到 临界 区 。 此 外 ,我 们 将 忙 等 待 限制 在 操作 wait() 和 
signal() 的 临界 区 内 ， 这 些 区 比较 短 (如 经 合理 编码 ， 它 们 不 会 超过 10 条 指令 )。 因 此 ， 
临界 区 几乎 不 被 占用 ， 忙 等 待 很 少 发 生 ， 而 且 所 需 时 间 很 短 。 对 于 应 用 程序 ， 存 在 一 种 完全 
不 同 的 情况 ， 即 临界 区 可 能 很 长 ( 数 分 钟 或 数 小 时 ) 或 几乎 总 是 被 占用 .在 这 种 情况 下 ， 忙 
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等 待 极为 低 效 。 


6.6.3” 死 锁 与 饥饿 


具有 等 竺 队列 的 信号 量 实现 可 能 导致 这 样 的 情况 : 两 个 或 多 个 进程 无 限 等 待 一 个 事件 ， 
而 该 事件 只 能 由 这 些 等 待 进程 之 一 来 产生 。 这 里 的 事件 是 执行 操作 signal()。 当 出 现 这 样 
的 状态 时 ， 这 些 进程 就 为 死 锁 (deadlocked). 

为 了 说 明 起 见 ， 假 设 有 一 个 系统 ， 它 有 两 个 进程 P 和 P11， 每 个 访问 共享 信号 量 S8S 和 Q， 
这 两 个 信号 量 的 初 值 均 为 1: 


Po Pi 
wait(S); wait(Q); 
wait(Q); wait (S); 
signal(S);  signal(Q); 
signal (Q); signal (8); 


假设 Po 执行 wait(S)， 接 着 Pi 执行 wait(Q)。 当 PP 执行 wait(Q) 时 ， 它 必须 等 
待 ， 直 到 Pi 执行 signal(Q) 。 类 似 地 ， 当 Pi 执行 wait(S) 时 ， 它 必须 等 待 ， 直 到 Po 执行 
signal(S) 。 由 于 这 两 个 操作 signal() 都 不 能 执行 ， 这 样 Po 和 局 就 死 锁 了 。 

我 们 说 一 组 进程 处 于 死 锁 状 态 : 组 内 的 每 个 进程 都 等 待 一 个 事件 ， 而 该 事件 只 可 能 由 组 
内 的 另 一 个 进程 产生 。 这 里 主要 关心 的 事件 是 资源 的 获取 和 释放 。 然 而 ， 如 第 7 章 所 述 ， 其 
他 类 型 的 事件 也 能 导致 死 锁 。 在 第 7 章 ， 我 们 将 讨论 多 种 机 制 ， 以 便 处 理 死 锁 问 题 。 

与 死 锁 相 关 的 另 一 个 问题 是 无 限 阻塞 (indefinite blocking) 或 饥饿 (starvation)， 即 进程 
无 限 等 待 信号 量 。 如 果 对 与 信号 量 有 关 的 链表 按 LIFO 顺序 来 增加 和 删除 进程 ,那么 可 能 发 
生 无 限 阻塞 。 


6.6.4 优先 级 的 反 转 


如 果 一 个 较 高 优先 级 的 进程 需要 读 取 或 修改 内 核 数据 ， 而 且 这 个 内 核 数据 当前 正 被 较 低 
优先 级 的 进程 访问 〈 这 种 串联 方式 可 涉及 更 多 进程 )， 那 么 就 会 出 现 一 个 调度 挑战 。 由 于 内 
核 数 据 通常 是 用 锁 保 护 的 ， 较 高 优先 级 的 进程 将 不 得 不 等 待 较 低 优 先 级 的 进程 用 完 资源 。 如 
果 较 低 优先 级 的 进程 被 较 高 优先 级 的 进程 抢占 ， 那 么 情况 变 得 更 加 复杂 。 

作为 一 个 例子 ,假设 有 三 个 进程 ,， KL、M 和 五 ， 它们 的 优先 级 顺序 为 L< M< H, WE 
进程 万 需要 资源 R， 而 目前 正在 被 进程 访问 。 通 常 ， 进 程 有 将 等 待 L 用 完 资源 R。 但 
是 ,现在 假设 进程 M 进 入 可 运行 状态 ， 从 而 抢占 进程 L。 间 接地 ， 具 有 较 低 优先 级 的 进程 
M， 影 响 了 进程 万 应 等 待 多 久 ， 才 会 使 得 进程 工 释放 资源 R。 

这 个 间 题 称 为 优先 级 反 转 ( priority inversion)。 它 只 出 现在 具有 两 个 以 上 优先 级 的 系统 
中 ， 因 此 一 个 解决 方案 是 只 有 两 个 优先 级 。 然 而 ， 这 对 于 大 多 数 通 用 操作 系统 是 不 够 的 。 通 
常 ， 这 些 系统 在 解决 问题 时 采用 优先 级 继承 协议 (priority-inheritance protocol) 。 根 据 这 个 
协议 ， 所 有 正在 访问 资源 的 进程 获得 需要 访问 它 的 更 高 优先 级 进程 的 优先 级 ， 直 到 它们 用 完 
了 有 关 资 源 为 止 。 当 它们 用 完 时 ， 它 们 的 优先 级 恢复 到 原始 值 。 在 上 面 的 示例 中 ,优先 级 继 
承 协议 将 允许 进程 工 临 时 继承 进程 太 的 优先 级 ， 从 而 防止 进程 M 抢 占 执 行 。 当 进程 天 用 完 
资源 时 ,， 它 将 放弃 继承 的 进程 五 的 优先 级 ， 以 采用 原来 的 优先 级 。 因 为 资源 RR 现在 可 用 ， 
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进程 万， 而 不 是 进程 M， 会 接 下 来 运行 。 


优先 级 反 转 与 火星 探 路 者 

优先 级 反 转 不 只 是 调度 的 不 便 。 在 具有 严格 时 间 约 束 的 系统 上 ， 例 如 实时 系统 ， 优 
先 级 反 转 可 能 导致 进程 花费 比 它 应 该 完成 任务 更 长 的 时 间 。 当 这 种 情况 发 生 时 ， 其 他 故障 
可 能 级 联 ， 导 致 系统 故障 。 

看 一 看 火星 探 路 者 ( Mars Pathfinder)， 这 是 一 个 NASA 空间 探测 器 ， 在 1997 年 3 月 
它 将 机 器 人 (Soiourner 流浪 者 ) 降落 到 火星 以 便 进 行 实 验 。 在 Sojourner 开始 运营 不 久之 
后 ， 它 开始 频繁 重启 电脑 。 每 次 重启 重新 初始 化 所 有 硬件 和 软件 ， 包 括 通信 。 如 果 问 题 没 
有 解决 ，Sojourner 的 任务 就 会 失败 。 

造成 这 个 问题 的 原因 是 : 一 个 称 为 “bc dist” 的 高 优先 级 任务 需要 比 预 期 更 长 的 时 
间 来 完成 工作 。 这 个 任务 被 按 等 待 一 个 共享 资源 ， 这 个 资源 被 较 低 优先 级 的 任务 “ASI/ 
MET” 所 持 有 ， 而 这 个 任务 又 被 多 个 中 等 优先 级 的 任务 所 抢占 。“be dist” 任 务 由 于 等 待 
共享 资源 而 阻塞 ， 最终“ bec_sched” 任 务 发 现 问 题 并 执行 重 置 。Sojourner 遭受 的 就 是 优 
先 级 反 转 的 一 个 典型 例子 。 

Sojourner 的 操作 系统 是 VxWorks 实时 操作 系统 ， 它 有 一 个 全 局 变量 ， 以 便 启用 所 有 
信和 号 量 的 优先 级 继承 。 经 测试 后 ， 设 置 了 Sojourner (在 火星 上 ! ) 的 变量 ， 并 且 解 决 了 问题 。 

这 个 问题 的 完整 描述 、 它 的 检测 、 它 的 解决 方案 是 由 软件 团队 领导 编写 的 ， 可 在 如 
下 网 址 获得 : http://research.microsoft.com/en-us/um/people/mbj/mars pathfinder/authoritative 
account.html o 


6.7 ”经典 同步 问题 


本 节 给 出 多 个 同步 问题 ， 举 例 说 明 大 量 并 发 控制 问题 。 这 些 问 题 用 于 测试 几乎 所 有 新 提 
出 的 同步 方案 。 在 我 们 的 解决 方案 中 ,我们 使 用 信号 量 来 同步 ， 因 为 这 是 讨论 这 类 解决 方案 
的 传统 方式 。 然 而 ， 这 些 解 决 方案 的 实际 实现 可 以 使 用 互 斥 锁 代 替 二 进 制 信号 量 。 


6.7.1 有 界 缓冲 问题 


有 界 缓冲 问题 (bounded-buffer problem) 在 6.1 节 中 讨论 过 ， 它 通常 用 于 说 明 同 步 原 语 
能 力 。 这 里 ， 给 出 该 解决 方案 的 一 种 通用 结构 ， 而 不 是 局 限于 某 个 特定 实现 。 本 章 后 面 的 习 
题 有 一 个 相关 的 编程 项 目 。 

对 于 我 们 的 问题 ， 生 产 者 和 消费 者 进程 共享 以 下 数据 结构 : 

senate mutex = 1; 


semaphore empty = n; 
semaphore full = 0 


假设 缓冲 池 有 nn 个 缓冲 区 ,每 个 缓冲 区 可 存 一 个 数据 项 。 信 号 量 mutex 提供 缓冲 池 访 问 的 
互 斥 要 求 ， 并 初始 化 为 1。 信 号 量 empty 和 full 分 别 用 于 表示 空 的 和 满 的 缓冲 区 数量 。 信 
Sit empty 初始 化 为 x»， 而 信号 量 full 初始 化 为 0。 

生产 者 进程 的 代码 如 图 6-9 所 示 ; 消费 者 进程 的 代码 如 图 6-10 所 示 。 注 意 生 产 者 和 消 
费 者 之 间 的 对 称 性 。 我 们 可 以 这 样 来 理解 代码 : 生产 者 为 消费 者 生产 满 的 缓冲 区 ， 而 消费 者 
为 生产 者 生产 空 的 缓冲 区 。 
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do { { 

ere wait (full); 
/* produce an item in next_produced */ wait (mutex) ; 
wait (empty) ; /* remove an item from buffer to next_consumed */ 
wait (mutex) ; Behe 
signal (mutex) ; 
signal (empty) ; 


/* add next_produced to the buffer */ 


signal (mutex) ; /* consume the item in next_consumed */ 
signal (full) ; 
} while (true) ; 


} while (true) i 


图 6-9 生产 者 进程 结构 图 6-10 消费 者 进程 的 结构 





6.7.2 读者 - 作者 问题 


假设 一 个 数据 库 为 多 个 并 发 进程 所 共享 。 有 的 进程 可 能 只 需要 读数 据 库 ， 而 其 他 进程 可 
能 需要 更 新 ( 即 读 和 写 ) 数据 库 。 为 了 区 分 这 两 种 类 型 的 进程 ， 我 们 称 前 者 为 读者 〈reader)， 
称 后 者 为 作者 (writer)。 显 然 ， 如 果 两 个 读者 同时 访问 共享 数据 ， 那 么 不 会 产生 什么 不 利 结果 。 
然而 ， 如 果 一 个 作者 和 其 他 线程 (或 读者 或 作者 ) 同时 访问 数据 库 ， 那 么 混乱 可 能 随 之 而 来 。 

为 了 确保 不 会 出 现 这 些 困难 ， 我 们 要 求 作者 在 写 信 数据库 时 具有 共享 数据 库 独 占 的 访 
问 权 。 这 一 同步 问题 称 为 读者 - 作者 问题 ( reader-writer problem)。 自 从 它 被 提出 后 ， 它 就 
一 直 用 于 测试 几乎 所 有 新 的 同步 原 语 。 读 者 - 作者 问题 有 多 个 变种 ， 都 与 优先 级 有 关 。 最 为 
简单 的 问题 ， 通 常 称 为 第 一 读者 - 作者 问题 ， 要 求 读者 不 应 保持 等 待 ， 除 非 作 者 已 获得 权限 
使 用 共享 对 象 。 换 句 话说 ， 没 有 读者 ， 由 于 某 个 作者 等 待 ， 而 等 待 其 他 读者 的 完成 。 第 二 读 
者 - 作者 问题 要 求 ， 一 旦 作者 就 绪 ， 那 么 作者 会 尽 可 能 快 地 执行 。 换 句 话 说， 如 果 有 一 个 作 
者 等 待 访问 对 象 ， 那 么 不 会 有 新 的 读者 可 以 开始 读 。 

这 两 个 问题 的 解答 都 可 能 导致 饥饿 。 对 于 第 一 种 情况 ， 作 者 可 能 饥饿 ; 对 于 第 二 种 情况 ， 
读者 可 能 饥饿 。 由 于 这 个 原因 ， 该 问题 的 其 他 变种 也 被 提出 。 这 里 我 们 介绍 第 一 读者 -作者 
问题 的 一 个 解答 。 关 于 读者 -作者 问题 的 没有 饥饿 的 解答 ， 可 参见 本 章 末 尾 的 参考 读物 。 

对 于 第 一 读者 -作者 问题 的 解答 ， 读 者 进程 共享 以 下 数据 结构 : 

semaphore rwmutex = 1; 


semaphore mutex = 1; 
int read_count = 0; 


信号 量 mutex 和 rw mutex 初始 化 为 1 ; read_count 初始 化 为 0。 信 号 量 rw_mutex 为 
读者 和 作者 进程 所 共用 。 信 号 量 mutex 用 于 确保 在 更 新 变量 read_count 时 的 互 斥 。 变 量 
read_count 用 于 跟踪 多 少 进程 正在 读 对 象 。 信 号 量 rw_mutex 供 作 者 作为 互 斥 信号 量 。 它 
也 为 第 一 个 进入 临界 区 和 最 后 一 个 离开 临界 区 的 读者 所 使 用 ， 而 不 为 其 他 读者 所 使 用 。 

作者 进程 的 代码 如 图 6-11 所 示 ; 读者 进程 的 代码 如 图 6-12 所 示 。 注 意 ， 如 果 有 一 个 作 
者 进程 在 临界 区 内 ， 且 n 个 读者 处 于 等 待 ， 那 么 一 个 读者 在 rw_mutex EE, 而 n 一 1 个 
在 mutex 上 等 待 。 也 要 注意 ， 当 一 个 作者 执行 signal(rw_mutex) 时 ， 可 以 重新 启动 等 待 
读者 或 作者 的 执行 。 这 一 选择 由 调度 程序 来 进行 。 

有 些 系统 将 读者 - 作者 问题 及 其 解答 进行 了 抽象 ， 从 而 提供 读 写 锁 ( read-writer lock)。 在 获 
取 读 写 锁 时 ， 需 要 指定 锁 的 模式 : 读 访 问 或 写 访 问 。 当 一 个 进程 只 希望 读 共 享 数 据 时 ， 可 申请 读 
模式 的 读 写 锁 ; 当 一 个 进程 希望 修改 共享 数据 时 ， 应 申请 写 模式 的 读 写 锁 。 多 个 进程 可 允许 并 发 
获取 读 模 式 的 读 写 锁 ， 但 是 只 有 一 个 进程 可 获取 写 模式 的 读 写 锁 ， 作 者 进程 需要 互 斥 的 访问 。 











wait (mutex) ; 

read_count++; 

if (read_count == 1) 
wait (rw_mutex) ; 

signal (mutex) ; 


/* reading is performed */ 





do { 








wait (rw_mutex) ; vait Gantax’ H 
Pane read_count-—; 
/* writing is performed */ if (read_count == 0) 
8 ET signal (rw_mutex) ; 
signal (rw_mutex) ; signal (mutex) ; 
} while (true); } while (true); 
图 6-11 作者 进程 的 结构 图 6-12 读者 进程 的 结构 
读 写 锁 在 以 下 情况 下 最 为 有 用 : 


o 容易 识别 哪些 进程 只 读 共 享 数据 和 哪些 进程 只 写 共 享 数据 的 应 用 程序 。 
o 读者 进程 数 比 作者 进程 数 多 的 应 用 程序 。 这 是 因为 读 写 锁 的 建立 开销 通常 大 于 信和 号 
量 或 互 斥 锁 的 ， 但 是 这 一 开销 可 以 通过 允许 多 个 读者 的 并 发 程度 的 增加 来 加 以 弥补 。 


6.7.3 哲学 家 就 餐 问题 


假设 有 5 个 哲学 家 ， 他 们 的 生活 只 是 思考 和 吃饭 。 这 些 哲学 家 共用 一 个 圆 课 ， 每 位 都 有 一 把 
椅子 。 在 桌子 中 央 有 一 碗 米饭 ， 在 桌子 上 放 着 5 根 馈 子 (图 6-13 )。 当 一 位 哲学 家 思考 时 ， 他 与 其 
他 同事 不 交流 。 时 而 ， 他 会 感到 饥饿 ， 并 试图 拿 起 与 他 相近 的 两 根 簧 子 〈 簧 子 在 他 和 他 的 左 或 右 
邻居 之 间 )。 一 个 哲学 家 一 次 只 能 拿 起 一 根 策 子 。 显 然 ， 他 不 能 从 其 他 哲学 家 手 里 拿 走 筑 子 。 当 一 
个 饥饿 的 哲学 家 同时 拥有 两 根 簧 子 时 ， 他 就 能 吃 。 在 吃 完 后 ， 他 会 放下 两 根 簧 子 ， 并 开始 思考 。 

哲学 家 就 餐 问题 (dining-philosophers problem) 是 一 个 经 典 的 同步 问题 ， 这 不 是 因为 其 本 身 
的 实际 重要 性 ， 也 不 是 因为 计算 机 科学 家 不 喜欢 哲学 家 ， 而 是 因为 它 是 大 量 并 发 控制 问题 的 一 
个 例子 。 这 个 代表 型 的 例子 满足 ， 在 多 个 进程 之 间 分 配 多 个 资源 ， 而 且 不 会 出 现 死 锁 和 饥饿 。 

一 种 简单 的 解决 方法 是 每 只 筷子 都 用 一 个 信号 量 来 表示 。 一 个 哲学 家 通过 执行 操作 wait O 
试图 获取 相应 的 簧 子 ， 他 会 通过 执行 操作 signal() 以 释放 相应 的 筷子 。 因 此 ， 共 享 数据 为 


semaphore chopstick[5] ; 


Hip, chopstick 的 所 有 元 素 都 初始 化 为 1。 哲 学 家 i 的 结构 如 图 6-14 所 示 。 


do { 
Wait(chopstick[i]); 
wait(chopstick[(i+1) % 5]); 
/* eat for awhile */ 


signal (chopstick (iJ); 
signal(chopstick[(it+1) % 5]); 


/* think for awhile */ 


} while (true) ; 


图 6-13 就餐 哲学 家 的 情景 图 6-14 哲学 家 i 的 结构 
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虽然 这 一 解决 方案 保证 两 个 邻居 不 能 同时 进食 ， 但 是 它 可 能 导致 死 锁 ， 因 此 还 是 应 被 拒 
绝 的 。 假若 所 有 5 个 哲学 家 同时 饥 狐 并 拿 起 左边 的 筑 子 。 所 有 簧 子 的 信号 量 现在 均 为 0。 当 
每 个 哲学 家 试图 拿 右边 的 筷子 时 ， 他 会 被 永远 推迟 。 

死 锁 问 题 有 多 种 可 能 的 补救 措施 : 

© 允许 最 多 4 个 哲学 家 同时 坐 在 桌子 上 。 

© 只 有 一 个 哲学 家 的 两 根 馈 子 都 可 用 时 ， 他 才能 拿 起 它们 (他 必须 在 临界 区 内 拿 起 两 根 

RF). 
o 使 用 非 对称 解 决 方案 。 即 单 号 的 哲学 家 先 拿 起 左边 的 簧 子 ， 接 着 右边 的 簧 子 ， 而 双 
号 的 哲学 家 先 拿 起 右边 的 答 子 ， 接 着 左边 的 筷子 。 

6.8 节 会 提出 哲学 家 就 餐 问 题 的 一 种 解答 ， 以 便 确 保 没 有 死 锁 。 但 请 注意 ， 任 何 令 人 满 
意 的 哲学 家 就 餐 问题 的 解决 应 确保 : 没有 一 个 哲学 家 可 能 会 饿 死 。 没 有 死 锁 的 解决 方案 不 一 
定 能 消除 饥饿 的 可 能 性 。 


6.8 BH 


虽然 信号 量 提 供 了 一 种 方便 且 有 效 的 进程 同步 机 制 ， 但 是 它们 的 使 用 错误 可 能 导致 难以 
检测 的 时 序 错误 ， 因 为 这 些 错误 只 有 在 特定 执行 顺序 时 才 会 出 现 ， 而 这 些 顺 序 并 不 总 是 出 现 。 
在 6.1 节 的 生产 者 - 消费 者 问题 的 解决 方案 中 ， 我 们 在 使 用 计数 器 时 就 出 现 了 这 种 错误 的 
一 个 例子 。 在 那个 例子 中 ， 时 序 问题 仅仅 很 少 发 生 ， 而 且 那 时 计数 器 的 值 看 起 来 似乎 合理 一 一 
只 差 1。 然 而 ， 这 样 的 解决 方案 显然 是 不 能 接受 的 。 正 是 由 于 这 个 原因 ， 才 引入 了 信和 号 量 。 
遗憾 的 是 ， 即 使 采用 了 信号 量 ， 这 种 时 序 错 误 仍 会 出 现 。 为 了 说 明 ， 回 顾 一 下 临界 区 问 
题 的 信号 量 解决 方案 。 所 有 进程 共享 信号 量变 量 mutex， 其 初 值 为 1。 每 个 进程 在 进入 临界 
区 之 前 执行 wait (mutex) ， 之 后 执行 signal (mutex)。 如 果 不 遵 守 这 一 顺序 ， 那 么 两 个 进 
程 可 能 同时 在 临界 区 内 。 下 面 我 们 分 析 一 下 可 能 导致 的 各 种 问题 。 注 意 ， 即 使 只 有 一 个 进程 
不 正确 ， 也 会 出 现 这 些 问题 。 这 可 能 是 无 意 的 编程 错误 ， 或 不 合作 程序 员 的 故意 行为 。 
e 假设 一 个 进程 交换 了 信号 量 mutex 的 操作 wait() 和 signal() 的 顺序 ， 从 而 导致 如 
下 执行 : 
signal (mutex); 
critical section 
wait (mutex) $ 
在 这 种 情况 下 ， 多 个 进程 可 能 执行 在 临界 区 内 ， 因 而 违反 互 扩 要求 。 只 有 当 多 个 进 
程 同 时 执行 在 临界 区 内 时 ， 这 种 错误 才 会 发 现 。 请 注意 ， 这 种 情况 并 不 总 是 可 能 
再 现 。 
e 假设 一 个 进程 用 wait (mutex) 蔡 代 了 signal (mutex)。 即 它 执行 
wait (mutex) ; 
critical section 
wait (mutex) ; 
在 这 种 情况 下 ， 死 锁 就 会 出 现 。 
© 假设 一 个 进程 省 略 了 wait (mutex) 或 signal (mutex) 或 两 者 。 在 这 种 情况 下 ， 可 能 
违反 互 斥 或 可 能 发 生死 锁 。 
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这 些 示 例 说 明 ， 当 程序 员 没 有 正确 使 用 信号 量 来 解决 临界 区 问题 时 ， 可 以 容易 生成 各 种 类 型 
的 错误 。 对 于 6.7 节 讨论 的 其 他 同步 模型 ， 类 似 问 题 也 会 出 现 。 

为 了 处 理 这 种 错误 ,人 研究 人 员 开 发 了 一 些 高 级 语言 工具 。 本 节 介 绍 一 种 重要 的 、 高 级 的 
同步 工具 ， 即 管 程 (monitor)。 


6.8.1 使 用 方法 


抽象 数据 类 型 ( Abstract Data Type, ADT) 封装 了 数据 及 对 其 操作 的 一 组 函数 ， 这 一 类 
型 独立 于 任何 特定 的 ADT 实现 。 管 程 类 型 (monitor type) 属于 ADT 类 型 ， 提 供 一 组 由 程 
序 员 定义 的 、 在 管 程 内 互 斥 的 操作 。 管 程 类 型 也 包括 一 组 变量 ， 用 于 定义 这 一 类 型 的 实例 状 
态 ， 也 包括 操作 这 些 变量 的 函数 实现 。 管 程 类 型 的 语法 如 图 6-15 所 示 。 管 程 类 型 的 表示 不 
能 直接 由 各 种 进程 所 使 用 。 因 此 ， 只 有 管 程 内 定义 的 函数 才能 访问 管 程 内 的 局 部 声明 的 变量 
和 形式 参数 。 类 似 地 ， 管 程 的 局 部 变量 只 能 为 局 部 函数 所 访问 。 

管 程 结构 确保 每 次 只 有 一 个 进程 在 管 程 内 处 于 活动 状态 。 因 此 ， 程 序 员 不 需要 明确 编写 
同步 约束 (图 6-16 )。 然 而 ， 如 到 目前 为 止 所 定义 的 管 程 结构 ， 在 人 处理 某 些 同步 问题 时 ， 还 
不 够 强大 。 为 此 ， 我 们 需要 定义 附加 的 同步 机 制 ; 这 些 可 由 条 件 (condition) 结构 来 提供 。 
当 程序 员 需 要 编写 定制 的 同步 方案 时 ， 他 可 定义 一 个 或 多 个 类 型 为 condition 的 变量 : 


condition x, y; 














monitor monitor name 
i /* shared variable declarations */ 
function Pi KC os . YA 
Shans 
function P2(... ) { 
; ati 
function Pn ( ,. .) { 
; 时 
initializationcode (...) { 
i p ag 
} : 
6-15 管 程 的 语法 图 6-16 管 程 的 示意 图 


对 于 条 件 变量 ， 只 有 操作 wait() 和 signal() 可 以 调用 。 操 作 
x.wait(); 

意味 着 调用 这 一 操作 的 进程 会 被 挂 起 ， 直 到 另 一 进程 调用 
x.signal(); 


操作 x.signal() 重新 恢复 正好 一 个 挂 起 进程 。 如 果 没 有 挂 起 进程 ， 那 么 操作 signal () 
就 没有 作用 ， 即 x 的 状态 如 同 没有 执行 任何 操作 (图 6-17 )。 这 一 操作 与 信号 量 的 操作 
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signal() 不 同 ， 后 者 始终 影响 信号 量 的 状态 。 






与 条 件 x, y {A 
关联 的 队列 


图 6-17 具有 条 件 变量 的 管 程 


现在 ,假设 当 操 作 x.signal() 被 一 个 进程 P 调 用时， 在 条 件 变量 x 上 有 一 个 挂 起 进程 
Q。 显 然 ， 如 果 挂 起 进程 0 允许 重 执行 ， 那 么 进程 P 必须 等 待 。 否 则 ， 管 程 内 有 两 个 进程 P 
和 0 可 能 同时 执行 。 然 而 ， 请 注意 ， 从 概念 上 说 两 个 进程 都 可 以 继续 执行 。 有 两 种 可 能 性 
存在 : 

© 了 唤醒 并 等 待 (signal and wait): 进程 PP 等待 直到 0 离开 管 程 ,或 者 等 待 男 一 个 条 件 。 

o 唤醒 并 继续 (signal and continue): HHO 等待 直到 PP 离开 管 程 或 者 等 待 男 一 个 

276 条 件 。 

对 于 任 一 选项 ， 都 有 赞同 理由 。 一 方面 , 由 于 已 已 经 在 管 程 中 执行 ， 唤 醒 并 继续 (signal- 
and-continue) 的 方法 似乎 更 为 合理 。 另 一 方面 ， 如 果 我 们 允许 线程 尸 继续， 那么 2 等 待 的 
逻辑 条 件 在 O 重新 启动 时 可 能 已 不 再 成 立 。Concurrent Pascal 语言 采用 这 两 种 选择 的 折 中 。 
当 进程 执行 操作 signal 时 ， 它 立即 离开 管 程 。 因 此 ， 进 程 2 立即 重新 执行 。 

许多 编程 语言 ， 如 Java 和 C#， 都 采用 本 节 所 述 的 管 程 思想 。 其 他 语言 ， 如 Erlang， 提 
供 类 似 机 制 的 并 发 支持 。 


6.8.2 哲学 家 就 餐 问题 的 管 程 解决 方案 


下 面 ， 通 过 哲学 家 就 餐 问题 的 一 个 无 死 锁 解答 说 明 管 程 概念 。 这 个 解答 强加 以 下 限制 : 
只 有 当 一 个 哲学 家 的 两 根 生子 都 可 用 时 ， 他 才能 拿 起 第 子 。 为 了 编写 这 个 解答 ,我们 需要 区 
分 哲学 家 所 处 的 三 个 状态 。 为 此 ， 引 入 如 下 数据 结构 : 
enum {THINKING, HUNGRY, EATING} state[5]; 
哲学 家 i 只 有 在 其 两 个 邻居 不 在 就 餐 时 ， 才 能 设置 变量 state[i] = EATING : (state[(i+ 
4)%5]!= EATING) 和 (state[(i+1)%5] != EATING), 
还 需要 声明 


condition self[5]; 
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这 让 哲学 家 i EVRA RAES AMR, PUER H Eo 

HE, PRAT AT DAFT FACE TS. Go) A ke rH PE DiningPhilosophers 来 
控制 的 ， 它 的 定义 如 图 6-18 所 示 。 每 个 哲学 家 
在 用 和 餐 之 前 ， 应 调用 操作 pickup() 5 这 可 能 挂 ee DiningPhilosophers 
起 该 哲学 家 进程 。 在 操作 pickup() 成 功 之 后 ， enum {THINKING, HUNGRY, EATING} state[5] ; 
他 就 可 进餐 。 然 后 ， 他 调用 操作 ba 因 condition self[5]; 
此 ,哲学 家 i 应 按 如 下 顺序 来 调用 操作 pickup() | via PickupCint i) { 


utdown(); test (i); 
Hp G; if (state[i] != EATING) 
DiningPhilosophers.pickup(i); } self [i] .wait(); 


eat 
R void putdown(int i) { 
DiningPhilosophers.putdown (i); state[i] = THINKING; 
test((i + 4) % 5); 


容易 看 出 ， 这 一 解答 确保 了 相 邻 两 个 哲学 家 不 } rc hte E 
会 同时 用 和 餐 ， 且 不 会 出 现 死 锁 。 然 而 ， 我 们 注 


意 到 ， 哲 学 家 可 能 俄 死 。 我 们 对 这 个 问题 就 不 | E tetela s4) % 5] I= EATING) ak 

给 出 解答 ， 而 是 将 它 作 为 练习 留 给 读者 。 a era a 
state[i] = EATING; 

6.8.3 采用 信号 量 的 管 程 实现 self [i] .signal(); 


} 

我 们 现在 考虑 采用 信号 量 的 管 程 的 可 能 实现 。 | 
对 于 每 个 管 程 ， 都 有 一 个 信号 量 mutex (初始 化 为 | ED， i) 
1)。 进 程 在 进入 管 程 之 前 应 执行 wait (mutex)， Ld Seer 
在 离开 管 程 之 后 应 执行 signal (mutex), } 

由 于 唤醒 进程 必须 等 待 ， 直 到 重新 启动 图 6-18 哲学 家 就 餐 问题 的 管 程 解答 
的 进程 离开 或 者 等 待 ， 所 以 引入 了 一 个 额外 
的 信号 量 next (初始 化 为 0 )。 唤 醒 进 程 可 使 用 next 来 挂 起 自己 。 另 外 还 有 一 个 整 型 变量 
next_count ， 用 于 对 在 next 上 挂 起 的 进程 进行 计数 。 因 此 ， 每 个 外 部 函数 F 会 蔡 换 成 


wait (mutex) ; 





body of F 


if (mext_count > 0) 
signal (next) ; 
else 
signal (mutex) ; 


这 确保 了 管 程 内 的 互 斥 。 
我 们 现在 描述 如 何 实现 条 件 变量 。 对 于 每 个 条 件 变量 x， 都 有 一 个 信号 量 x_sem 和 一 个 
整 型 变量 x_count ， 两 者 均 初 始 化 为 0。 操作 x.wait() 可 按 如 下 实现 : 


x-count++; 
if (next_count > 0) 
signal (next) ; 
else 
signal (mutex) ; 
wait (x_sem) ; 
x_count--; 


操作 x.signal() 可 按 如 下 实现 : 
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if (x_count > 0) { 
next_count++; 
signal (x_sem) ; 
wait (next) ; 
next_count--; 


} 


这 种 实现 适用 于 由 Hoare 和 Brinch-Hansen 定义 的 管 程 (参见 本 章 末尾 的 参考 文献 )。 然 而 ， 
在 有 些 情况 下 ， 这 种 实现 的 通用 性 是 不 必要 的 ， 而 且 效 率 的 显著 提高 是 可 能 的 。 我 们 将 这 个 
问题 作为 习题 6.24 留 给 读者 。 


6.8.4 管 程 内 的 进程 重启 


现在 ， 我 们 讨论 管 程 内 的 进程 重新 启动 的 顺序 问题 。 如 果 多 个 进程 已 挂 起 在 条 件 x 上 ， 
并 且 有 个 进程 执行 了 操作 x.signal()， 那 么 我 们 如 何 选择 哪个 挂 起 进程 应 能 重新 运行 ?一 
个 简单 的 解决 方法 是 使 用 先 来 先 服务 (FCFS) 顺序 ， 这 样 等 待 最 长 的 进程 首先 重新 运行 。 然 
而 ， 在 许多 情况 下 ， 这 种 简单 调度 方案 是 不 够 的 。 为 此 ， 可 以 使 用 条 件 等 待 (conditional- 
wait) 结构 。 它 具有 如 下 形式 : 


x.wait(c); 


其 中 c 是 整 型 表达 式 ， 需 要 在 执行 操作 wait 时 进行 计算 。 值 < 称 为 优先 值 priority 
number)， 与 挂 起 进程 的 名 称 一 起 存储 。 当 执行 x.signal() 时 ， 具 有 最 小 优先 值 的 进程 会 
被 重新 启动 。 

为 了 说 明 这 种 新 机 制 ， 假 设 有 一 个 如 图 6-19 所 示 的 
管 程 ResourceAllocator ， 多 个 进程 用 它 来 控制 访问 单个 
资源 。 每 个 进程 ， 在 请 求 分 配 资源 时 ， 指 定 它 计划 使 用 资 
源 的 最 大 时 间 。 管 程 分 配 资源 给 具有 最 短 时 间 分 配 请 求 的 
进程 。 需 要 访问 这 个 资源 的 进程 应 按 如 下 顺序 来 进行 : 


R.acquire(t); 


monitor ResourceAllocator 


boolean busy; 
condition X; 


void acquire(int time) { 
if (busy) 
x.wait (time) ; 
busy = true; 


access the resource; void release() { 


busy = false; 


R.release(); x.signal(); 


Hh R 是 类 型 hesourceAllocator 的 一 个 实例 。 

遗憾 的 是 ， 管 程 概念 并 不 能 保证 会 遵守 前 面 的 顺序 。 
特别 地 ， 可 能 引起 如 下 问题 ， p? 

e 进程 可 能 在 没有 首先 获得 资源 访问 权限 时 ， 访 问 l 

资源 。 图 6-19 用 于 分 配 单个 资源 的 管 程 

o 进程 可 能 在 获得 资源 访问 权限 之 后 ， 不 再 释放 资源 。 

o 进程 可 能 在 没有 请 求 之 前 ， 试 图 释放 资源 。 

e 进程 可 能 请 求 同 一 资源 两 次 (中间 没有 释放 资源 )。 

同样 的 困难 在 使 用 信号 量 时 也 碰 到 了 ， 这 些 困难 在 本 质 上 类 似 于 起 初 支持 管 程 结构 时 的 
困难 。 以 前 ， 我 们 不 得 不 关注 正确 使 用 信号 量 。 现 在 ， 我 们 必须 关注 正确 使 用 程序 员 定 义 的 
高 级 操作 ， 对 此 编译 器 无 能 为 力 。 

这 个 问题 的 一 个 可 能 的 解决 方案 是 : 将 资源 访问 操作 放 在 管 程 ResourceAllocator H, 
然而 ， 采 用 这 个 解决 方案 意味 着 ， 调 度 资源 的 算法 只 是 管 程 的 内 置 调度 算法 ， 而 非 我 们 自己 


initialization_code() { 
busy = false; 
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编写 的 调度 算法 。 

为 了 确保 进程 遵守 适当 顺序 ， 对 所 有 使 用 管 程 ResourceAllocator 及 其 管理 资源 的 程 
序 ， 我 们 都 应 检查 。 为 了 确保 系统 正确 ， 我 们 必须 检查 两 个 条 件 。 第 一 ， 用 户 进程 必须 总 是 
按 正确 顺序 来 调用 管 程 。 第 二 ， 我 们 必须 确保 : 不 合作 的 进程 不 能 简单 忽略 管 程 提供 的 互 斥 
关口 ， 在 不 遵守 协议 的 情况 下 不 能 试图 直接 访问 共享 资源 。 只 有 确保 这 两 个 条 件 ， 才 能 保证 
没有 时 间 依 赖 性 的 错误 发 生 ， 并 且 调 度 算法 不 会 失败 。 

虽然 这 种 检查 对 小 的 、 静 态 的 系统 是 可 能 的 ， 但 是 对 于 大 的 或 动态 的 系统 是 不 现实 的 。 
这 个 访问 控制 问题 只 能 通过 采用 附加 机 制 来 解决 (如 第 14 章 所 述 )。 


Java 管 程 
Java 为 线程 同步 提供 一 个 类 似 于 管 程 的 并 发 机 制 。Java 的 每 个 对 象 都 有 一 个 单独 的 
锁 。 当 方法 声明 为 synchronized 时 ， 调 用 方法 需要 拥有 对 象 的 锁 。 通 过 在 方法 定义 中 增加 
synchronized 关键 词 ， 我 们 声明 一 个 同步 方法 。 例 如 ， 以 下 定义 了 同步 方法 safeMethod() : 
public class SimpleClass { 
public synchronized void safeMethod() { 


/* Implementation of safeMethod() */ 


} 
} 


下 面 ， 我 们 创建 SimpleClass 的 对 象 实例 : 
SimpleClass sc = new SimpleClass(); 


调用 方法 sc.safeMethod() 要 求 拥有 对 象 实例 sc 的 锁 。 如 果 这 个 锁 被 其 他 线程 拥有 ， 
则 调用 同步 方法 的 线程 阻塞 ， 并 被 添加 到 对 象 锁 的 进入 集合 〈entry set) 中 。 进 入 集合 表 
示 正 在 等 待 可 用 锁 的 线程 集合 。 如 果 调 用 同步 方法 时 锁 可 用 ， 那么 调用 线程 将 成 为 对 象 的 
锁 的 所 有 者 ， 可 以 进入 该 方法 。 当 线程 退出 方法 时 ， 释 放 锁 ; 同时 从 进入 集合 中 选择 一 个 
线程 成 为 锁 的 新 所 有 者 。 

Java 也 提供 方法 wait() 和 notify()， 其 功能 类 似 于 管 程 的 wait() 和 signal()。 
Java API (软件 包 java.util.concurrent) 支持 信号 量 、 条 件 变 量 和 互 斥 锁 (以 及 其 他 的 
并 发 机 制 )。 


6.9 同步 例子 

接 下 来 ， 我 们 讨论 Windows. Linux 和 Solaris 等 操作 系统 以 及 Pthreads API 提供 的 
同步 机 制 。 选 择 这 三 个 操作 系统 ， 是 由 于 它们 提供 了 很 好 的 不 同 的 例子 来 同步 内 核 ;选择 
Pthreads API， 是 由 于 在 UNIX 与 Linux 系统 上 开发 人 员 广 泛 使 用 它们 来 创建 与 同步 线程 。 
正如 本 节 所 述 ， 这 些 不 同系 统 的 同步 方法 在 大 的 和 小 的 方面 都 有 区 别 。 


6.9.1 Windows 同步 


Windows 操作 系统 采用 多 线程 内 核 ， 支 持 实时 应 用 和 多 处 理 器 。 对 于 单 处 理 器 系统 ， 当 
Windows 内 核 访问 一 个 全 局 资源 时 ， 它 会 暂时 屏蔽 一 些 中 断 ， 而 这 些 中 断 的 处 理 程序 也 有 可 能 
访问 这 一 全 局 资源 。 对 于 多 处 理 器 系统 ，Windows 采用 自 旋 锁 来 保护 访问 全 局 资源 ， 但 是 内 核 
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只 采用 自 旋 锁 来 保护 短 代码 段 。 此 外 ， 出 于 效率 原因 ， 内 核 确 保 决 不 抢占 拥有 自 旋 锁 的 线程 。 

对 于 内 核 外 的 线程 同步 ，Windows 提供 调度 对 象 ( dispatcher object)。 采 用 调度 对 象 ， 
有 多 种 不 同 的 线程 同步 机 制 ， 包 括 互 斥 锁 、 信 和 号 量 、 事 件 和 定时 器 等 。 通 过 要 求 线程 获取 访 
问 数据 的 互 斥 拥有 权 和 在 用 完 后 释放 拥有 权 ， 系 统 保护 数据 。 信 号 量 如 6.6 节 所 述 的 那样 工 
作 。 事 件 (event) 类 似 于 条 件 ; 也 就 是 说 ， 当 所 需 条 件 出 现时 ， 会 通知 等 待 线程 。 最 后 ， 定 
时 器 用 来 在 一 定时 间 到 了 后 通知 一 个 或 多 个 线程 。 所 有 者 线程 释放 互 斥 镇 

调度 对 象 可 以 处 于 触发 状态 或 非 触 发 状态 。 -5 
触发 状态 (signaled state) 表示 对 象 可 用 ， 线 程 
在 获取 它 时 不 会 阻塞 。 非 触发 状态 (nonsignaled 
state) 表示 对 象 不 可 用 ， 线 程 在 试图 获取 它 时 会 阻 
塞 。 图 6-20 显示 了 互 斥 锁 调 度 对 象 的 状态 转换 。 

在 调度 对 象 状态 与 线程 状态 之 间 存 在 一 定 关 系 。 当 一 个 线程 阻塞 在 非 触发 调度 对 象 上 
时 ， 它 的 状态 从 就 绪 变 成 等 待 ， 而 且 它 会 添加 到 那个 对 象 的 等 待 队 列 。 当 调度 对 象 状态 变 成 
触发 时 ， 内 核 检查 是 否 有 线程 正在 等 待 这 个 对 象 。 如 果 有 ， 那 么 内 核 改变 一 个 或 多 个 线程 的 
状态 ， 即 从 等 待 状态 切换 到 就 绪 状 态 以 便 重 新 执行 。 内 核 从 等 待 队列 中 选择 的 进程 数量 取决 
于 等 待 的 调度 对 象 类 型 。 对 于 互 斥 锁 ， 内 核 从 等 待 队列 中 只 选择 一 个 线程 ， 因 为 一 个 互 斥 对 
象 只 能 为 单个 线程 所 拥有 。 对 于 事件 对 象 ， 内 核 选 择 所 有 等 待 事件 的 线程 。 

我 们 以 互 斥 锁 为 例 来 说 明 调度 对 象 和 线程 状态 的 关系 。 如 果 一 个 线程 试图 获取 处 于 非 触 
发 状态 的 互 斥 调度 对 象 ， 那 么 它 会 被 挂 起 ， 并 被 添加 到 互 斥 对 象 的 等 待 队列 。 当 互 斥 对 象 变 
成 触发 状态 (由 于 另外 一 个 线程 释放 了 互 斥 锁 )， 等 待 队列 前 面 的 线程 会 从 等 待 状态 变 成 就 
绪 状态 ， 且 会 获得 互 斥 锁 。 

临界 区 对 象 (critical-section object) 为 用 户 模 式 互 斥 锁 ， 可 在 没有 内 核 干预 的 情况 下 获 
取 和 释放 。 在 多 处 理 器 系统 上 ， 当 等 待 另 一 个 线程 释放 这 种 对 象 时 ， 临 界 区 对 象 首先 采用 自 
旋 锁 。 如 果 它 旋转 太 长 ， 那 么 它 接着 会 分 配 一 个 互 斥 锁 ， 并 放弃 CPU。 临 界 区 对 象 特别 高 
效 ， 因 为 只 有 在 有 争 用 时 才 分 配 内 核 互 斥 锁 。 实 际 上 ， 竞 争 极 少 ， 因 此 这 种 节省 十 分 明显 。 

本 章 末尾 提供 一 个 编程 项 目 ， 它 会 用 到 Windows API 的 互 斥 锁 和 信号 量 。 


线程 获取 互 斥 锁 
图 6-20 mutex 调度 对 象 


6.9.2 Linux 同步 


在 2.6 版 之 前 ，Linux 为 非 抢 占 内 核 ; 这 意味 着 ， 纵 然 有 一 个 更 高 优先 级 的 进程 能 够 运 
行 ， 它 也 不 能 抢占 在 内 核 模 式 下 运行 的 其 他 进程 。 然 而 ， 现 在 Linux 内 核 是 完全 可 抢占 的 ， 
这 样 在 内 核 态 下 运行 的 任务 也 能 被 抢占 。 

Linux 提供 多 种 不 同 机制 ， 以 便 用 于 内 核 中 的 同步 。 由 于 大 多 数 计算 机 体系 结构 提供 原 
子 版 本 的 简单 数学 运算 指令 ，Linux 内 核 的 最 简单 同步 技术 为 原子 整数 (atomic integer), € 
的 类 型 为 抽象 数据 类 型 atomic_t。 顾 名 思 义 ， 所 有 采用 原子 整数 的 数学 运算 在 执行 时 不 会 
中 断 。 以 下 代码 说 明了 : 首先 声明 一 个 原子 整数 counter ， 然 后 执行 各 种 原子 操作 : 


atomic_t counter; 
int value; 


atomic_set(&counter,5); /* counter = 5 */ 
atomic_add(10, &counter); /* counter = counter + 10 */ 
atomic_sub(4, &counter); /* counter = counter - 4 */ 
atomic_inc(&counter); /* counter = counter + 1 */ 
value = atomic_read(&counter); /* value = 12 */ 
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Solaris 使 用 自 适应 互 斥 方法 ， 保 护 仅 通过 短 代 码 段 访问 的 数据 。 也 就 是 说 ， 如 果 锁 只 
持续 少 于 几 百 条 指令 ， 那 么 就 使 用 自 适应 互 斥 。 如 果 代 码 段 较 长 ， 那 么 自 旋 等 待 就 极为 低 
效 。 对 于 较 长 的 代码 段 ， 可 以 使 用 条 件 变量 和 信和 号 量 。 如 果 需 要 的 锁 已 经 被 占用 ， 那 么 进程 
就 等 待 且 睡 眼 。 当 一 个 线程 释放 锁 时 ， 它 发 出 一 个 信号 给 队列 中 的 下 一 个 睡眠 线程 。 线 程 进 
入 睡眠 和 唤醒 以 及 相关 上 下 文 切 换 的 额外 开销 ， 应 少 于 在 自 旋 锁 上 浪费 数 百 条 指令 的 开销 。 

对 于 经 常 访问 但 是 通常 只 读 访 问 的 数据 保护 ， 可 用 读 写 锁 。 在 这 些 情况 下 ， 读 写 锁 要 比 
信和 号 量 更 为 有 效 ， 因 为 多 个 线程 可 以 并 发 读 取 数 据 ， 而 信和 号 量 总 是 允许 串 行 化 数据 访问 。 读 
写 锁 相 对 来 说 实现 代价 较 大 ， 因 此 它们 只 用 于 长 段 代码 。 

Solaris 采用 十 字 转 门 ， 排 列 等 待 获取 自 适 应 锁 和 读 写 锁 的 一 组 线程 。 十 字 转 门 
(turnstile) 是 一 个 队列 结构 ， 它 包含 阻塞 在 锁 上 的 线程 。 例 如 ， 如 果 一 个 线程 现在 拥有 同步 
HRHD, 那么 所 有 其 他 线程 在 试图 获取 锁 时 会 阻塞 并 进入 该 锁 的 十 字 转 门 。 当 释放 该 锁 
时 ， 内 核 会 从 十 字 转 门 中 选择 一 个 线程 ， 以 作为 锁 的 下 一 个 所 有 者 。 当 一 个 同步 对 象 至 少 有 
一 个 线程 阻塞 在 该 对 象 的 锁 上 时 ， 它 就 需要 一 个 单独 十 字 转 门 。 然 而 ，Solaris 不 是 将 每 个 同 
步 对 象 与 一 个 十 字 转 门 相关 联 ， 而 是 为 每 个 内 核 线 程 分 配 一 个 十 字 转 门 。 这 是 因为 一 个 线程 
只 能 某 一 时 刻 阻塞 在 一 个 对 象 上 ， 所 以 这 上 比 每 个 对 象 都 有 一 个 十 字 转 门 更 加 高 效 。 

阻塞 在 同步 对 象 上 的 最 初 线程 的 十 字 转 门 成 为 对 象 本 身 的 十 字 转 门 ; 以 后 阻塞 在 该 锁 
上 的 线程 会 增加 到 该 十 字 转 门 。 当 最 初 线程 最 终 释 放 锁 时 ， 它 会 从 内 核 维护 的 空闲 十 字 转 门 
中 获得 一 个 新 的 。 为 了 防止 优先 级 反 转 ， 十 字 转 门 根据 优先 级 继承 协议 ( priority-inheritance 
protocol) 来 组 织 。 这 意味 着 ， 如 果 较 低 优先 级 线程 现在 拥有 一 个 较 高 优先 级 线程 阻塞 的 锁 ， 
那么 该 低 优先 级 线程 会 暂时 继承 较 高 优先 级 线程 的 优先 级 。 在 释放 线程 之 后 ， 该 线程 会 返回 
到 它 原来 的 优先 级 。 

注意 ， 内 核 所 用 的 加 锁 机 制 的 实现 ， 与 用 户 级 线程 所 用 的 一 样 ; 因此 ， 同 样 类 型 的 锁 在 
内 核 内 外 都 可 使 用 。 一 个 关键 的 实现 差别 是 优先 级 继承 协议 。 内 核 加 锁 的 子 程序 遵守 调度 程 
序 所 用 的 内 核 优先 级 继承 方法 ， 如 6.6.4 节 所 述 ; 用 户 级 线程 加 锁 机 制 并 不 提供 这 种 功能 。 

为 了 优化 Solaris 性 能 ， 开 发 人 员 不 断 改进 加 锁 方 法 。 因 为 锁 被 经 常 使 用 ， 且 通常 用 于 
关键 的 内 核 函 数 ， 所 以 实现 和 使 用 的 优化 可 大 大 地 改善 性 能 。 


6.9.4 Pthreads 同步 


虽然 Solaris 使 用 的 加 锁 机 制 不 仅 适 用 于 内 核 线程 ， 而 且 适 用 于 用 户 级 线程 ， 但 是 到 现在 
为 止 讨 论 的 同步 方法 基本 上 用 于 内 核 中 的 同步 。 相 反 ，Pthreads API 只 能 被 用 户 级 别 的 程序 
员 使 用 ， 而 不 能 用 于 任何 特定 内 核 。 这 个 API 为 线程 同步 提供 互 斥 锁 、 条 件 变量 和 读 写 锁 。 

互 斥 锁 代 表 Pthreads 使 用 的 基本 同步 技术 。 互 斥 锁 用 于 保护 代码 的 临界 区 ; 也 就 是 说 ， 
线程 在 进入 临界 区 之 前 获取 锁 ， 在 退出 临界 区 之 后 释放 它 。Pthreads 互 斥 锁 采 用 数据 类 型 
pthread_mutex_t, iit K% pthread_mutex_init() 创建 互 斥 锁 。 它 的 第 一 个 参数 为 互 
斥 锁 的 指针 。 通 过 传递 NULE IFANS TER; 我 们 采用 默认 属性 来 初始 化 互 斥 锁 。 如 下 
所 示 : 

#include <pthread.h> 


pthread mutex t mutex; 


/* create the mutex lock */ 
pthread mutex_init (&mutex,NULL) ; 
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通过 函数 pthread_mutex_lock() 或 Pthread_mutex_unlock()， 可 获取 或 释放 互 斥 
Hio WJH pthread_mutex_lock() 时 ， 如 果 互 斥 锁 不 可 用 ， 那 么 调用 线程 会 被 阻塞 ， 直 到 
所 有 者 调用 pthread_mutex_unlock() 为 止 。 以 下 代码 说 明了 ， 采 用 互 斥 锁 来 保护 临界 区 : 


/* acquire the mutex lock */ 
pthread_mutex_lock(&mutex) ; 


/* critical section */ 


/* release the mutex lock */ 
pthread_mutex_unlock (&mutex) ; 


所 有 互 斥 函数 在 操作 正确 时 ， 返 回 值 为 0 ; 当 发 生 错误 时 ， 返 回 一 个 非 零 的 错误 代码 。 条 件 
变量 和 读 写 锁 的 行为 ， 类 似 于 6.8 节 和 6.7.2 节 描 述 的 方式 。 
实现 Pthreads 的 许多 系统 也 提供 信号 量 ， 虽 然 信 号 量 不 是 Pthreads 标准 的 一 部 分 ， 而 
是 属于 POSIX SEM 扩展 。POSIX 指定 两 种 类 型 的 信号 量 : 命名 信号 量 (named semaphore) [287 
和 无 名 信号 量 (unnamed semaphore)。 两 者 之 间 的 根本 区 别 是 : 命名 信和 号 量 在 文件 系统 中 具 
有 实际 名 称 ， 并 且 能 被 多 个 不 相关 进程 所 共享 。 无 名 信和 号 量 只 能 被 同一 进程 的 线程 所 使 用 。 
本 节 描 述 无 名 信号 量 。 以 下 代码 说 明 ， 通 过 函数 sem_init() 来 创建 和 初始 化 一 个 无 名 信 
号 量 : 


#include <semaphore.h> 
sem_t sem; 


/* Create the semaphore and initialize it to 1 */ 
seminit(&sem, 0, 1); 


K% sem_init() 需要 三 个 参数 ; 

e 信号 量 的 指针 。 

© 表示 共享 级 别 的 标志 。 

。 信号 量 的 初始 值 。 
在 这 个 例子 中 ， 通 过 传递 标志 0， 表 示 这 个 信和 号 量 可 以 仅 由 属于 创建 信号 量 的 进程 线程 共 
享 。 非 零 标志 人 允许 其 他 进程 也 能 访问 信号 量 。 此 外 ,我 们 将 信号 量 初 始 化 为 1。 

6.6 节 描述 了 经 由 的 信号 量 操 作 wait() fil signal(). Pthreads 分 别 命 名 这 些 操 作 
为 sem_wait() 和 sem_post()。 以 下 代码 示例 说 明 ， 采 用 上 面 创建 的 信号 量 来 保护 临 
AX: 


/* acquire the semaphore */ 
sem_wait (&sem) ; 


/* critical section */ 


/* release the semaphore */ 
sem_post (&sem) ; 


就 像 互 斥 锁 ， 所 有 信和 号 量 函 数 当 成 功 时 返回 0; 而 当 出 现 错误 条 件 时 ， 返 回 非 零 。 

还 有 对 Pthreads API 的 其 他 扩展 ， 包 括 自 旋 锁 等 ; 但 重要 的 是 要 注意 ， 并 不 是 所 有 扩展 
都 可 以 从 一 个 实现 移植 到 另 一 个 。 本 章 末 尾 有 几 个 编程 习题 和 项 目 ， 它 们 采用 Pthreads 的 互 
斥 锁 、 条 件 变量 以 及 信和 号 量 。 


6.10 替代 方法 
随 着 多 核 系统 的 出 现 ， 开 发 利用 多 核 的 多 线程 应 用 程序 的 压力 也 越 来 越 大 。 然 而， 多 线 B88] 
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程 应 用 程序 会 增加 竞争 条 件 和 死 锁 的 风险 。 传 统 上 ， 诸 如 互 斥 锁 、 信 和 号 量 和 管 程 等 技术 用 于 
解决 这 些 问 题 ， 但 是 随 着 处 理 核 数 量 的 增加 ， 设 计 多 线程 应 用 程序 并 且 避 免 竞争 条 件 和 和 死 锁 
变 得 越 来 越 困 难 。 

本 节 探 讨 通 过 编程 语言 和 硬件 提供 的 各 种 特征 来 支持 设计 线程 安全 的 并 发 应 用 程序 。 


6.10.1 事务 内 存 


在 计算 机 科学 中 ,通常 可 以 采用 源 自 一 个 研究 领域 的 想法 解决 其 他 领域 的 问题 。 例 如 ， 
事务 内 存 (transactional memory) 的 概念 源 自 数据 库 理论 ， 但 它 提 供 了 一 种 进程 同步 的 策略 。 
A (memory transaction) 为 一 个 内 存 读 写 操作 的 序列 ， 它 是 原子 的 。 如 果 事 务 中 的 所 
有 操作 都 完成 了 ， 内 存 事务 就 被 提交 。 和 否则 ， 应 中 止 操作 并 回 滚 。 通 过 添加 特征 到 编程 语言 
能 得 到 事务 内 存 的 好 处 。 

考虑 一 个 例子 。 假 设 有 一 个 函数 update() ， 用 于 修改 共享 数据 。 传 统 上 ， 这 个 函数 采 
用 互 斥 锁 (或 信号 量 ) 来 编写 ,例如 : 

void update () 

acquire(); 
/* modify shared data */ 


release(); 


但 是 ， 采 用 诸如 互 斥 锁 和 信和 号 量 之 类 的 同步 机 制 涉 及 许多 潜在 的 问题 ， 包 括 死 锁 。 此 外 ， 随 
着 线程 数量 的 增加 ， 传 统 加 锁 的 可 伸缩 性 欠 佳 ， 因 为 线程 对 锁 所 有 权 的 竞争 会 非常 激烈 。 
作为 传统 加 锁 方 法 的 替代 ， 可 以 利用 事务 性 内 存 的 优点 ， 为 编程 语言 添加 新 的 特征 。 在 
我 们 的 例子 中 ,假设 我 们 添加 构造 atomic{S}， 它 确保 8 中 的 操作 作为 事务 执行 。 这 样 RK 
数 update() 可 以 重 写 如 下 : 
ie update () 


atomic { 
/* modify shared data */ 


} 

采用 这 种 机 制 而 不 是 锁 的 优点 是 : 事务 性 内 存 系统 而 非 开 发 人 员 负 责 保证 原子 性 。 再 
者 ， 因 为 不 涉及 锁 ， 所 以 死 锁 是 不 可 能 的 。 此 外 ,事务 内 存 系统 可 以 识别 哪些 原子 块 内 的 语 
句 能 并 发 执行 ， 如 共享 变量 的 并 发 读 访 问 。 当 然 ， 程 序 员 可 以 识别 这 些 情况 并 且 使 用 读 写 
锁 ， 但 是 随 着 应 用 程序 中 的 线程 数量 的 增长 ， 这 个 任务 变 得 越 来 越 困 难 。 

事务 内 存 可 以 通过 软件 或 硬件 实现 。 软 件 事务 内 存 ( Software Transactional Memory， 
STM)， 顾 名 思 义 ,完全 通过 软件 来 实现 ， 而 不 需要 特殊 硬件 。STM 通过 在 事务 块 中 插入 检 
测 代码 来 工作 。 代 码 ， 由 编译 器 插入 ,通过 检查 哪些 语句 并 发 运行 和 哪些 地 方 需要 特定 的 低 
级 加 锁 ， 来 管理 每 个 事务 。 硬 件 事 务 内 存 (Hardware Transactional Memory, HTM) 使 用 硬 
件 高 速 缓存 层次 结构 和 高 速 缓存 一 致 性 协议 ， 对 涉及 驻 留 在 单独 处 理 器 的 高 速 缓存 中 的 共享 
数据 进行 管理 和 解决 冲突 。HTM 不 要 求 特 定 的 代码 ， 因 此 具有 比 STM 更 少 的 开销 。 但 是 ， 
HTM 确实 需要 修改 现 有 的 缓存 层次 结构 和 缓存 一 致 性 协议 ， 以 便 支持 事务 内 存 。 

事务 内 存 已 经 有 多 年 了 ， 但 是 没有 广泛 应 用 。 然 而 ， 随 着 多 核 系统 的 增长 和 并 发 与 并 行 
编程 的 强调 ， 已 经 促使 学 术 界 和 软件 与 硬件 供应 商 在 这 一 领域 投入 了 大 量 研究 。 
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6.10.2 OpenMP 


4.5.2 节 概 述 了 OpenMP 及 其 对 共享 内 存 环境 的 并 行 编程 支持 。 回 想 一 下 ，OpenMP 有 一 
组 编译 器 指令 和 一 个 API。 编 译 器 指令 #pragma omp parallel 后 的 任何 代码 被 标识 为 并 行 
区 域 ， 并 由 多 个 线程 来 执行 ， 这 些 线程 的 数量 与 系统 处 理 核 的 数量 相同 。OpenMP (和 类 似 工 
A) 的 优点 是 : 线程 的 创建 与 管理 可 由 OpenMP 库 处 理 ， 而 不 是 应 用 程序 开发 人 员 的 责任 。 

除了 编译 指令 #pragma omp parallel 外 ，OpenMP 还 提供 了 编译 指令 #pragma omp 
critical， 以 便 指 定 它 后 面 的 代码 为 临界 区 ， 即 一 次 只 有 一 个 线程 可 以 在 该 区 内 执行 。 这 
样 ， 对 确保 线程 不 生成 竞争 条 件 ，OpenMP 提供 了 支持 。 

作为 使 用 临界 区 编译 器 指令 的 一 个 例子 。 首 先 ， 假设 共 享 变量 counter 可 以 在 函数 
update() 中 修改 ， 例 如 : 

void update(int value) 


counter += value; 


如 果 函 数 update() 是 并 行 区 域 的 一 部 分 ,或 被 并 行 区 域 调用 ， 那 么 对 变量 counter 可 能 有 
竞争 条 件 。 
临界 区 编译 器 指令 可 以 用 来 弥补 这 种 竞争 条 件 ， 编 码 如 下 : 
void update(int value) 
#pragma omp critical 
counter += value; 
} 
临界 区 编译 器 指令 的 行为 很 像 一 个 二 进 制 信号 量 或 互 斥 锁 ， 它 确保 每 次 只 有 一 个 线程 在 临界 
区 内 处 于 活动 状态 。 如 果 在 一 个 线程 尝试 进入 临界 区 时 另 一 个 线程 正在 该 临界 区 内 活动 ( 即 
拥有 该 临界 区 )， 那 么 调用 线程 阻塞 ， 直 到 所 有 者 线程 退出 。 如 果 必 须 使 用 多 个 临界 区 ， 那 
么 每 个 临界 区 可 以 分 配 一 个 单独 名 称 ， 通 过 规则 可 以 指定 在 同一 名 称 的 临界 区 内 中 最 多 只 有 
一 个 线程 是 活动 的 。 
采用 OpenMP 临界 区 编译 器 指令 的 优点 之 一 是 : 与 标准 互 斥 锁 相 比 ， 它 通常 被 认为 更 
加 容易 。 然 而 ， 缺 点 是 ， 应 用 程序 开发 人 员 仍 然 必须 识别 可 能 的 竞争 条 件 ， 并 使 用 编译 器 指 
令 充 分 保护 共享 数据 。 此 外 ， 由 于 临界 区 编译 器 指令 的 行为 很 像 互 斥 锁 ， 当 有 两 个 或 更 多 的 
临界 区 时 死 锁 仍然 可 能 发 生 。 


6.10.3 ”函数 式 编程 语言 


著名 的 编程 语言 ， 如 C、C++、Java MICH, RAME (imperative) (或 过 程式 ( pro- 
cedural)) 语言 。 命 令 式 语言 用 于 实现 基于 状态 的 算法 。 采 用 这 些 语言 ， 算 法 流程 对 执行 正确 
是 至 关 重 要 的 ， 并 且 状 态 采用 变量 和 其 他 数据 结构 来 表示 。 当 然 ， 程 序 状态 是 可 变 的 ， 因 为 
变量 可 以 随 着 时 间 不 同 而 被 分 配 不 同 的 值 。 

随 着 多 核 系 统 的 并 发 与 并 行 编程 的 日 益 重 要 ， 函 数 式 ( functional) 编程 语言 也 更 受 关 
注 ， 它 的 编程 不 同 于 命令 式 语言 的 编程 。 命 令 式 与 昂 数 式 语言 的 根本 区 别 是 ， 隆 数 式 语言 
不 维护 状态 。 也 就 是 说 ,一 旦 一 个 变量 被 定义 和 赋 了 一 个 值 ， 它 的 值 是 不 可 变 的 ， 即 它 不 能 
被 修改 。 由 于 函数 式 语言 不 允许 可 变 状 态 ， 它 们 不 需要 关心 诸如 竞争 条 件 和 死 锁 等 问题 。 本 
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质 上 ， 本 章 讨论 的 大 多 数 问题 在 函数 式 语 言 中 是 不 存在 的 。 

现在 有 多 个 函数 式 语言 ， 这 里 简要 提 及 两 个 : Erlang 和 Scalas HF Erlang 支持 并 发 并 
且 容 易 开发 可 在 并 行 系统 上 运行 的 应 用 程序 ，Erlang 已 引起 了 极 大 的 关注 。Scala 是 一 个 函 
数 式 语言 ， 也 是 一 个 面向 对 象 语言 。 其 实 ，Scala 的 大 部 分 语法 类 似 于 流行 的 面向 对 象 语言 
Java 和 C#。 对 Erlang, Scala 以 及 函数 式 语言 的 更 多 细节 感 兴趣 的 读者 ， 可 参考 本 章 结 尾 的 
参考 文献 。 
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当 有 一 组 协作 的 顺序 进程 共享 数据 时 ， 应 提供 互 斥 以 确保 一 次 只 有 一 个 进程 或 线程 使 用 
代码 的 临界 区 。 通 常 ， 计 算 机 硬件 提供 多 个 操作 确保 互 斥 。 然 而 ， 这 种 硬件 解决 方案 对 大 多 
数 开 发 人 员 来 说 使 用 太 复 杂 了 。 互 斥 锁 与 信号 量 克服 了 这 个 困难 。 这 两 个 工具 可 用 于 解决 各 
种 同步 问题 ， 而 且 实 现 也 高 效 (尤其 是 在 有 原子 操作 的 硬件 支持 下 )。 

各 种 不 同 的 同步 问题 (如 有 界 缓存 区 问题 、 读 者 - 作者 问题 和 哲学 家 就 餐 问 题 ) 很 重 
要 ， 这 是 因为 这 些 问题 是 大 量 并 发 控制 问题 的 例子 。 这 些 问题 用 于 测试 几乎 所 有 新 提出 的 同 
步 方 案 。 

操作 系统 应 提供 机 制 以 防止 时 序 出 错 ， 已 有 多 个 语言 结构 可 处 理 这 些 问 题 。 管 程 为 共享 
抽象 数据 类 型 提供 了 同步 机 制 。 条 件 变量 提供 了 一 个 方法 ， 以 便 管 程 函数 阻塞 执行 直到 被 通 
知 可 继续 为 止 。 

操作 系统 也 提供 同步 支持 。 例 如 ，Windows、Linux 和 Solaris 都 提供 机 制 ， 如 信和 号 量 、 
互 斥 锁 、 自 旋 锁 及 条 件 变量 ， 以 便 提 供 访 问 共享 数据 。Pthreads API 支持 互 斥 锁 、 信 号 量 以 
及 条 件 变量 。 

有 多 个 替代 方法 重点 关注 多 核 系统 的 同步 。 一 个 方法 采用 事务 内 存 ， 它 通过 软件 或 硬件 
技术 来 处 理 同 步 问题 。 另 一 个 方法 采用 由 OpenMp 提供 的 编译 器 扩展 。 最 后 ， 函 数 式 编程 语 
言 通过 不 允许 可 变性 来 处 理 同 步 问题 。 


习题 
6.1 许多 计算 机 系统 可 能 都 有 竞争 条 件 。 考 虑 一 个 银行 系统 ， 它 有 两 个 函数 用 于 维护 账户 ; 


deposit (amount) 和 withdraw(amount) 这 两 个 


6.2 


函数 都 有 一 个 参数 amount, ， 用 于 表示 向 银行 存 人 
的 或 从 银行 取出 的 金额 。 假 设 一 个 丈夫 和 他 的 妻子 
共用 一 个 银行 账户 。 并 发 地 ,丈夫 调 用 函数 
withdraw(), ， 而 麦子 调用 函数 deposit()。 请 讨 
论 : 竞争 条 件 如 何 可 能 与 如 何 防止 发 生 竞争 条 件 。 
第 一 个 著名 的 正确 解决 两 个 进程 临界 区 问题 的 软件 
方法 是 由 Dekker 设计 的 。 两 个 进程 P。 和 Pi 共享 
以 下 变量 : 


boolean flag[2]; /* initially false */ 
int turn; 


进程 P; (i==0 或 1) 的 结构 见 图 6-21， 另 一 个 进 
F P; ( j==0 或 1)。 请 证 明 这 个 算法 满足 临界 区 问 





o { 
flag[i] = true; 





while (flag[j]) { 
if (turn == j) 
flag[i] = false; 
while (turn == j) 
; /* do nothing */ 
flag[i] = true; 


/* critical section */ 


turn = j; 
flag[i] = false; 


/* remainder section */ 
} while (true); 





图 6-21 采用 Dekker 算法 的 进程 P, 的 结构 





6.3 


6.4 
6.5 


6.6. 


6.7 
6.8 
6.9 
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题 的 所 有 三 个 要 求 。 


首 个 将 等 待 次 数 降低 到 — 1 范围 内 的 正确 解决 2 个 进程 临界 区 问题 的 软件 解决 方法 ， 是 由 


Eisenberg 和 McGuire 设计 的 。 这 些 进程 共享 以 下 变量 : 


enum pstate {idle, want in, in cs}; 
pstate flag[n]; 


int turn; 


flag 的 所 有 成 员 初 值 为 idle ; turn 的 初 值 无 关 紧 要 (在 0 和 7- 1 之 间 )。 进 程 忆 的 结构 见 图 
这 个 算法 满足 临界 区 问题 的 所 有 三 个 要 求 。 


6-22, 请 证 明 : 























do { 
while (true) { 

flag[i] = want_in; 

j = turn; 






while (j != i) { 
if (flag[j] != idle) { 
j = turn; 
else 
J = (j 4 2) Y ny 


flag[i] = in cs; 
p20; 


while ( (j < n) && (j == i || flag[j] != in-cs)) 
itt} 


if ( (j >= n) && (turn == i || flag[turn] == idle)) 
break; 
/* critical section */ 
j = (turn + 1) % n; 


while (flag[j] == idle) 
j= Ch +1) Zon; 





turn = j; 
flag[i] = idle; 


/* remainder section */ 
} while (true); 





图 6-22 采用 Eisenberg 与 McGuire 算法 的 进程 Pj 的 结构 
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请 解释 : 为 什么 在 单 处 理 器 系统 上 通过 禁止 中 断 来 实现 同步 原 语 的 方法 不 适用 于 用 户 级 程序 。 
请 解释 : 为 什么 通过 禁止 中 断 来 实现 同步 原 语 不 适合 于 多 处 理 器 系统 。 


Linux 内 核 有 一 个 策略 : 一 个 进程 在 试图 获得 一 个 信号 量 时 不 能 持 有 自 旋 锁 。 请 解释 为 什么 有 这 


一 策略 。 


请 描述 可 能 存在 竞争 条 件 的 两 个 内 核 数据 结构 。 一 定 要 有 如 何 可 能 发 生 竞 争 条 件 的 描述 。 


请 描述 如 何 采 用 指令 compare_and_swap() 来 实现 互 斥 并 满足 有 限 等 待 要 求 。 
考虑 如 何 使 用 原子 硬件 指令 实现 互 斥 锁 。 假 设 定义 互 斥 锁 的 结构 如 下 : 


typedef struct { 
int available; 


} lock; 


“4 available 为 0 时 ， 表 示 锁 可 用 ; “4 available 为 1 时 ， 表 示 锁 不 可 用 。 通 过 这 个 struct, 
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6.10 


6.11 


6.12 


6.13 


说 明 如 何 采 用 指令 test_and_set() 和 compare_and_swap() 来 实现 如 下 函数 : 

@ void acquire(lock *mutex) 

@ void release(lock *mutex) 

一 定 要 包括 任何 可 能 必要 的 初始 化 。 

6.5 节 所 述 的 互 斥 锁 实 现存 在 忙 等 待 的 问题 。 请 讨论 一 下 : 通过 什么 样 的 必要 修改 ， 以 便 等 待 获 
取 互 斥 锁 的 进程 应 阻塞 ， 并 添加 到 等 待 队列 ， 直 到 锁 可 用 为 止 。 

假设 一 个 系统 有 多 个 处 理 核 。 针 对 下 面 的 各 个 场景 ， 请 讨论 一 下 : 哪 一 个 是 更 好 的 加 锁 机 制 ， 
是 自 旋 锁 ? 还 是 互 斥 锁 ? 这 里 要 求 等 待 进程 在 等 待 可 用 锁 时 应 睡眠 。 

e 用 锁 的 时 间 很 短 。 

e 用 锁 的 时 间 很 长 。 

© 线程 在 拥有 锁 时 可 能 处 于 睡眠 。 

假设 上 下 文 切 换 需 要 7 了 7 时间。 请 建议 持 有 自 旋 锁 的 上 限 ( 按 了 计 )。 如 果 自 旋 锁 占有 时 间 更 长 ， 
那么 互 斥 锁 〈 等 待 线程 应 睡眠 ) 会 更 好 。 

一 个 多 线程 的 服务 器 希望 跟踪 服务 过 的 请 求 数量 〈 称 为 命中 (hit) )。 考 虑 如 下 两 个 策略 ， 以 防 
止 变量 hits 的 竞争 条 件 。 第 一 个 策略 是 在 更 新 hits 时 采用 基本 的 互 斥 锁 : 


int hits; 
mutex_lock hit_lock; 


hit_lock.acquire(); 
hits++; 
hit_lock.release(); 


第 二 个 策略 采用 原子 整数 : 


atomic_t hits; 
atomic_inc(&hits) ; 


请 解释 哪 一 种 策略 更 加 有 效 。 
考虑 如 图 6-23 所 示 的 分 配 和 释放 进程 的 代码 。 


#define MAX PROCESSES 255 
int number_of_processes = 0; 


/* the implementation of fork() calls this function */ 
int allocate_process() { 
int new_pid; 


if (number_of_processes == MAX_PROCESSES) 
return -1; 

else { 
/* allocate necessary process resources */ 
++number_of _processes; 


return new_pid; 


} 


} 


/* the implementation of exit() calls this function */ 
void release_process() { 
/* release process resources */ 
--number_of_processes; 





} 
图 6-23 分 配 和 释放 进程 


a. 指出 竞争 条 件 。 


6.15 


6.17 


6.18 
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b. 假设 有 一 个 名 为 mutex 的 互 斥 锁 ， 它 有 操作 acquire() 和 release()。 指 出 应 在 哪里 加 锁 ， 
以 便 防止 竞争 条 件 。 
c. 能 否 采用 原子 整数 


int number of processes = 0 


来 取代 整数 


atomic_t number_of processes = 0 


以 防止 竞争 条 件 ? 

服务 器 的 打开 连接 的 数量 可 通过 设计 来 加 以 限制 。 例 如 ， 一 个 服务 器 可 能 只 希望 同时 有 N 个 套 

接 字 连 接 。 只 要 已 有 NN 个 连接 ， 服 务 器 就 不 再 接受 男 一 个 接 和 连接， 直到 一 个 现 有 连接 得 到 释 [296 
放 。 请 解释 ， 服务 器 如 何 能 采用 信号 量 来 限制 并 发 连接 的 数量 。 


. Windows Vista 有 一 个 轻 量 级 的 同步 工具 ， 称 为 轻 量 读者 - 作者 锁 ( slim reader-writer lock)。 虽 


然 大 多 数 读 者 -作者 的 实现 偏向 读者 或 作者 ， 或 对 等 待 线程 采用 先进 先 出 政策 来 排序 ， 但 是 轻 
量 读者 - 作者 锁 并 不 偏向 读者 或 作者 ， 也 不 对 等 待 线程 采用 先进 先 出 策略 来 排序 。 请 解释 这 种 
同步 工具 的 好 处 。 

说 明 如 何在 多 处 理 器 环境 中 采用 指令 test_and_set() 来 实现 信和 号 量 操 作 wait() 和 signal()。 
该 解决 方案 应 具有 最 小 的 忙 等 待 。 

习题 4.21 要 求 父 线程 在 打印 出 计算 值 之 前 等 待 子 线程 完成 执行 。 如 果 只 要 子 线程 计算 出 
Fibonacci 数 而 不 是 子 线程 终止 ， 父 线程 就 能 访问 这 些 数 ， 那 么 对 这 个 习题 需要 做 出 什么 必要 的 
修改 ? 实现 修改 后 的 解决 方案 。 

就 能 用 于 实现 同一 类 型 的 同步 问题 的 解决 方案 而 言 ， 管 程 和 信号 量 是 等 价 的 。 请 
证 明 。 

请 设计 一 个 有 界 缓冲 区 的 管 程 ， 其 中 的 缓冲 区 部 分 做 人 在 管 程 内 。 

管 程 内 的 严格 互 斥 使 得 习题 6.20 的 有 界 缓冲 区 只 适用 少 部 分 问题 。 

a. 请 解释 为 什么 。 

b. 请 设计 一 个 新 方案 ， 以 适用 于 大 部 分 问题 。 

讨论 读者 - 作者 问题 的 操作 的 公平 性 和 吞吐 量 之 间 的 权衡 。 提 出 一 个 方法 ， 来 解决 读者 -作者 
问题 而 不 会 引起 饥饿。 

为 什么 与 管 程 相关 的 操作 signal() 不 同 于 信号 量 的 相应 操作 ? 

假设 语句 signal() 只 能 作为 一 个 管 程 函数 的 最 后 一 条 语句 出 现 。 针 对 这 种 情况 ， 建 议 如 何 可 
以 简化 6.8 节 所 述 的 实现 。 

假设 一 个 系统 有 进程 P|，P;,，…，P,， 每 个 进程 有 一 个 不 同 的 优先 级 数 。 写 一 个 管 程 来 为 这 些 
进程 分 配 三 个 相同 的 打印 机 ， 分 配 顺 序 由 优先 级 数 来 决定 。 

有 一 个 文件 被 多 个 进程 所 共享 ， 每 个 进程 有 一 个 不 同 的 数 。 这 个 文件 可 被 多 个 进程 同时 访问 ， 
且 应 满足 如 下 的 限制 条 件 : 所 有 访问 文件 的 进程 的 数 的 和 应 小 于 mw。 写 一 个 管 程 ， 以 协调 这 个 文 
件 的 访问 进程 。 297 
当 管 程 内 的 条 件 变量 被 执行 操作 signal 时 ， 执 行 操作 signa 的 进程 要 么 继续 执行 ， 要 么 切换 到 另 
一 被 唤醒 的 进程 。 针 对 这 两 种 可 能 ， 请 论述 上 一 练习 会 有 何不 同 。 

假设 将 管 程 中 的 操作 wait() 和 signal() 蔡 换 成 一 个 单一 的 await(B) ， 这 里 B 是 一 个 一 般 布 
尔 表达 式 ， 进 程 执行 await() 直到 B 变 成 true。 
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a. 用 这 种 方法 写 一 个 管 程 ， 以 实现 读者 - 作者 问题 。 

b. 解释 为 什么 一 般 来 说 这 种 结构 实现 的 效率 会 不 高 。 

c. 要 使 这 种 实现 的 效率 高 ， 需 要 对 await() 语句 加 上 哪些 限制 ? (提示 : 限制 B 的 一 
般 性 ， 见 Kessels[1997]。) 

设计 一 个 用 于 实现 闹钟 的 管 程 算法 ， 以 便 调用 这 个 闹钟 的 程序 能 够 延迟 给 定数 量 的 时 间 单 元 

(ticks)。 你 可 以 假设 有 一 个 硬件 时 钟 定 期 调用 管 程 内 的 函数 tick()。 


编程 题 


6.30 


6.32 


编程 习题 3.13 要 求 设计 一 个 PID 管理 器 ， 以 便 为 每 个 进程 分 配 唯一 的 进程 标识 符 。 习 题 4.15 要 
求 修改 编程 习题 3.13 的 解决 方案 ， 以 便 采用 多 线程 来 请 求 和 释放 进程 标识 符 。 现 在 ， 修 改 习题 
4.15 的 解决 方案 ， 确 保 用 于 表示 进程 标识 符 的 可 用 性 的 数据 结构 没有 竞争 条 件 。 采 用 Pthreads 
互 斥 锁 (6.9.4 节 所 述 的 )。 

假设 需要 管理 某 个 类 型 的 一 定数 量 的 资源 。 进 程 可 以 请 求 多 个 资源 ， 在 用 完 后 会 返回 它们 。 例 
如 ， 许 多 商用 软件 包 提 供给 定数 量 的 许可 证 ,表示 可 以 有 多 少 个 应 用 程序 可 以 同时 并 发 执行 。 
当 启动 应 用 程序 时 ， 许 可 证 数量 减少 。 当 终止 应 用 程序 时 ， 许 可 证 数量 增加 。 当 所 有 许可 证 都 
在 使 用 ， 那 么 新 的 启动 应 用 程序 会 被 拒绝 。 只 有 现 有 应 用 程序 退出 并 返回 许可 证 ， 新 的 启动 请 
求 才 能 允许 。 

下 面 的 程序 代码 用 于 管理 一 定数 量 的 可 用 资源 。 资 源 的 最 大 数量 以 及 可 用 资源 数量 ， 按 如 下 方 
式 声明 ， 


#define MAX_RESOURCES 5 
int available_resources = MAX- RESOURCES; 


当 一 个 进程 需要 获取 若干 资源 时 ， 它 调用 函数 decrease_count(); 


/* decrease available resources by count resources */ 
/* return 0 if sufficient resources available, */ 
/* otherwise return -1 */ 
int decrease_count(int count) { 
if (available_resources < count) 
return -1; 
else { 
available_resources -= count; 


return 0; 
} 
} 


当 一 个 进程 需要 返回 若干 资源 时 ， 它 调用 函数 increase_count(): 
/* increase available resources by count */ 


int increase_count(int count) { 
available resources += count; 


return 0; 


以 上 片断 会 出 现 竞 争 条 件 。 请 : 

a. 指出 与 竞争 条 件 有 关 的 数据 。 

b. 指出 与 竞争 条 件 有 关 的 代码 位 置 。 

c. 采用 信号 量 或 互 斥 锁 ， 解决 竞争 条 件 。 允 许 调用 函数 decrease_count() 的 进程 阻 寒 ， 直到 
有 足够 可 用 的 资源 。 

前 一 习题 的 函数 decrease_count() 在 有 足够 资源 时 返回 0， 否则 返回 -1。 这 会 导致 一 个 需要 


6.34 
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获取 者 干 资源 的 进程 按 如 下 笨 办 法 来 进行 


while (decrease_count(count) == -1) 


采用 管 程 与 条 件 变量 重 写 资源 管理 器 代码 ， 以 便 函 数 decrease_count() 会 阻塞 进程 ， 直 到 有 
足够 可 用 资源 为 止 。 这 允许 进程 按 如 下 方式 调用 函数 decrease_count () : 


decrease_count (count); 


只 有 当 资 源 足够 时 ， 该 进程 才 从 本 函数 的 调用 返回 。 
习题 4.17 要 求 设计 一 个 多 线程 程序 ， 通 过 Monte Carlo 技术 估算 mn 。 在 那个 习题 中 ， 要 求 创建 
一 个 线程 ， 以 便 生成 随机 点 ， 并 将 结果 存 人 一 个 全 局 变量 。 一 旦 该 线程 退出 ， 父 线程 执行 计算 ， 
以 估计 n 值 。 修 改 这 个 程序 ， 以 便 创建 多 个 线程 ， 这 里 每 个 线程 都 生成 随机 点 并 确定 点 是 否 落 
入 圆 内 。 每 个 线程 应 更 新 所 有 落 在 圆 内 的 点 的 全 局 计数 。 通 过 采用 互 斥 锁 ， 保 护 对 共享 全 局 变 
量 的 更 新 ， 以 防止 竞争 条 件 。 
习题 4.18 要 求 设 计 一 个 OpenMP 的 程序 ， 通 过 Monte Carlo 技术 估算 nm。 检查 这 个 程序 的 解决 
方案 ， 以 便 寻 找 任何 可 能 的 竞争 条 件 。 如 果 识 别 到 竞争 条 件 ， 采 用 6.10.2 节 的 策略 以 便 防 止 它 。 
屏障 是 一 个 用 于 同步 多 个 线程 活动 的 工具 。 当 线程 到 达 屏 障 点 时 ， 它 不 能 继续 ， 直 到 所 有 其 他 
线程 也 已 经 到 达 这 一 点 。 当 最 后 的 线程 到 达 屏 障 点 时 ， 所 有 线程 被 释放 ， 并 且 能 够 恢复 并 发 
执行 。 
假设 屏障 初始 化 为 Y， 即 在 屏障 点 等 待 的 线程 数量 : 
init(N); 
每 个 线程 执行 一 些 工 作 ， 直 到 它 到 达 屏 障 点 : 
/* do some work for awhile */ 
barrier_point(); 
/* do some work for awhile */ 
通过 本 章 描述 的 同步 工具 ， 构 建 一 个 屏障 ， 实 现 以 下 API: 
e int init(int n); 初始 化 指定 大 小 的 屏障 。 
e int barrier_point(void) : 标识 屏障 点 。 当 最 后 一 个 线程 到 达 时 ， 所 有 线程 从 屏障 点 被 
释放 。 
每 个 函数 的 返回 值 表示 错误 条 件 。 每 个 函数 在 正常 操作 下 将 返回 0 ; 如 果 发 生 错误 将 返回 -1。 
采用 与 本 书 一 起 的 可 下 载 的 源 代码 测试 屏障 实现 。 


编程 项 目 
项 目 1: 睡觉 助教 


某 大 学 的 计算 机 科学 系 有 一 名 助教 ( TA)， 他 在 正常 办 公 时 间 帮 助 大 学 生 做 编程 任务 。TA 的 办 公 


室 相当 小 ， 只 有 一 张 书桌 、 一 把 椅子 和 一 台电 脑 。 在 TA 办 公 室外 的 走廊 里 ， 有 三 把 椅子 ; 如 果 TA IE 
在 帮助 一 个 学 生 ， 那 么 其 他 学 生 坐 在 那里 等 待 。 如 果 没 有 学 生 在 办 公 时 间 里 需要 帮助 ， 那 么 TA 坐 在 
梨子 边 ， 打 个 师 。 如 果 学 生 在 办 公 时 间 到 达 并 发 现 TA EE, 那么 学 生 应 唤醒 TA 来 寻求 帮助 。 如 果 一 
个 学 生 到 达 并 发 现 TA 正在 帮助 另 一 个 学 生 ， 那 么 他 会 坐 在 走廊 里 的 一 把 椅子 上 并 等 待 。 如 果 没 有 椅 
子 可 用 ， 学 生 将 在 稍 后 回来 。 


采用 POSIX 线程 、 互 斥 锁 和 信和 号 量 ， 实 现 一 个 解决 方案 ， 以 便 协调 TA 和 学 生 的 活动 。 有 关 细 节 
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如 下 。 
学 生 与 TA 

采用 Pthreads (4.4.1 节 )， 首 先 创建 二 个 学 生 。 每 个 作为 单独 线程 来 运行 。TA 也 作为 一 个 单独 线 
程 来 运行 。 学 生 线程 在 编程 与 寻求 TA 帮助 之 间 交 蔡 。 如 果 TA 有 空 ， 他 们 将 获得 帮助 。 和 否则， 他们 会 
坐 在 走廊 椅子 上 ， 或 者 如 果 没 有 椅子 可 用 ， 将 恢复 编程 并 将 在 以 后 寻求 帮助 。 如 果 学 生来 时 TA E 
觉 ， 学 生 应 采用 信和 号 量 通知 TA。 当 TA 完成 帮助 一 个 学 生 时 ，TA 应 检查 走廊 上 是 否 有 学 生 在 等 待 帮 
助 。 如 果 有 ，TA 应 按 顺 序 帮助 这 些 学 生 。 如 果 没 有 ，TA 可 以 再 小 睡 。 

学 生 编 程 和 TA 为 学 生 提供 帮助 的 最 好 模拟 办 法 ,也许 是 让 线程 睡 一 随机 时 间 。 
POSIX 同步 

POSIX 互 斥 锁 和 信和 号 量 已 在 6.9.4 节 讨 论 过 。 详 情 可 参阅 该 部 分 。 


项 目 2: 哲学 家 就 餐 问题 


6.7.3 节 提 供 一 个 哲学 家 就 餐 问题 的 解决 方案 框架 。 本 问题 要 求 通过 Pthreads 互 斥 锁 和 条 件 变 量 ， 
来 实现 这 个 解决 方案 。 
哲学 家 

首先 创建 5 个 哲学 家 ， 每 个 用 数字 0 … 4 来 标识 。 每 个 哲学 家 作为 一 个 单独 线程 来 运行 。 采 用 
Pthreads 创建 线程 见 4.4.1 节 。 哲 学 家 在 思考 和 吃饭 之 间 交 蔡 。 为 了 模拟 这 两 种 活动 ， 可 让 线程 睡眠 
1 一 3 秒 。 当 哲学 家 想 吃 饭 时 ， 他 调用 函数 

pickup_forks(int philosopher_number) 
其 中 philosopher_number 为 想 吃 饭 哲 学 家 的 数字 。 当 哲学 家 吃 完 后 ， 他 调用 函数 

return_forks(int philosopher_number) 
Pthreads 条 件 变量 

Pthreads 条 件 变量 的 行为 类 似 于 6.8 节 所 述 的。 然而 ， 在 那 节 ， 条 件 变 量 是 用 在 管 程 的 上 下 文 
中 ， 从 而 提供 加 锁 机 制 以 便 确 保 数据 完整 性 。 由 于 Pthreads 通常 用 于 C 程序 并 且 C 没有 管 程 ， 通 过 
关联 条 件 变量 和 互 斥 锁 ， 我们 可 实现 加 锁 。6.9.4 节 讨论 Pthreads 互 斥 锁 ; 这 里 讨论 Pthreads 条 件 
变量 。 

Pthreads 条 件 变量 采用 数据 类 型 pthread_cond_t， 采用 函数 pthread_cond_init() 来 初始 化 。 
下 面 的 代码 创建 和 初始 化 条 件 变 量 以 及 关联 的 互 斥 锁 ， 


pthread mutex t mutex; 
pthread_cond_t cond_var; 


pthread_mutex_init (&mutex, NULL) ; 
pthread_cond_init (&cond_var , NULL) ; 


pA pthread_cond_wait() 用 于 等 待 条 件 变量 。 以 下 代码 采用 Pthreads 条 件 变 量 ， 说 明 一 个 线程 如 
何等 待 条 件 a == b; 
pthread mutex lock(&mutex); 
while (a != b) 
pthread cond wait (&mutex, &cond var); 


pthread_mutex_unlock (&mutex) ; 


与 条 件 变量 关联 的 互 斥 锁 在 调用 pthread_cond_wait() 之 前 应 加 锁 ， 因 为 它 保护 条 件 语句 内 的 数 
据 ， 避 免 竞 争 条件 。 一 旦 获得 这 个 锁 ， 线 程 就 可 检查 条 件 。 如 果 条 件 不 成 立 ， 则 线程 调用 pthread_ 
cond_wait() ， 传 递 互 斥 锁 和 条 件 变量 作为 参数 。 调 用 pthread_cond_wait() 释放 互 斥 锁 以 允许 另 一 
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个 线程 访问 共享 变量 ， 也 可 更 新 它 的 值 以 便条 件 语句 为 真 。( 为 了 防止 程序 错误 ， 重 要 的 是 ， 将 条 件 语 
句 放 在 循环 中 ， 以 便 在 被 唤醒 后 重新 检查 条 件 。) 

修改 共享 数据 的 线程 可 以 调用 随 数 pthread_cond_signal()， 从 而 唤醒 一 个 等 待 条 件 变 量 的 线 
程 。 这 个 代码 如 下 : 

pthread mutex lock(&mutex); 

a= bi 


pthread_cond_signal (&cond_var) ; 
pthread_mutex_unlock (&mutex) ; 


重要 的 是 要 注意 ， 调 用 pthread_cond_signal() 并 不 释放 互 斥 锁 。 而 是 随后 的 调用 pthread_ 
mutex_unlock() 释放 互 斥 锁 。 一 旦 互 斥 锁 被 释放 ， 唤 醒 线 程 成 为 互 斥 锁 的 所 有 者 ， 并 将 控制 权 返 回 
到 对 pthread_cond_wait() 的 调用 。 


项 目 3: 生产 者 - 消费 者 问题 


6.7.1 节 提 出 一 个 基于 信号 量 的 采用 有 界 缓冲 区 的 生产 者 - 消费 者 问题 。 本 项 目 采 用 如 图 6-9 与 
图 6-10 所 示 的 生产 者 与 消费 者 进程 ， 需 要 设计 一 个 程序 来 解决 有 界 缓冲 区 问题 。6.7.1 节 的 解决 方案 
采用 了 三 个 信号 量 : empty (以 记录 有 多 少 空 的 缓冲 区 )、ful1 (以 记录 有 多 少 满 的 缓冲 区 ) 及 mutex 
(二 进 制 信号 量 或 互 斥 信和 号 量 ， 以 保护 对 缓冲 区 插 人 与 删除 的 操作 )。 在 本 项 目 ，empty 与 full 将 采用 
标准 的 计数 信号 量 ， 而 mutex 将 采用 互 斥 锁 而 不 是 二 进 制 信号 量 。 生 产 者 与 消费 者 作为 独立 线程 ， 在 
empty, full 及 mutex 的 同步 下 ， 对 缓冲 区 进行 插入 与 删除 。 本 项 目 ， 可 采用 Pthreads 或 Windows 
API。 
缓冲 区 

从 内 部 来 说 ， 缓 冲 区 包括 一 个 固定 大 小 的 数组 ， 它 的 元 素 类 型 为 buffer_item (可 通过 typedef 
来 定义 )。 从 使 用 来 说 ， 这 个 buffer_item 对 象 的 数组 可 按 循环 队列 来 处 理 。buffer_item 的 定义 及 
缓冲 区 大 小 可 保存 在 头 文 件 中 ， 如 下 所 示 : 

/* buffer.h */ 

typedef int buffer_item; 

#define BUFFER SIZE 5 
缓冲 区 的 操作 有 两 个 函数 insert_item() 与 remove_item() ， 它 们 分 别 用 于 生产 者 和 消费 
者 线程 。 这 两 个 函数 的 使 用 框架 如 图 6-24 所 示 。 

PK AW insert_item() 4j remove_item() 采 用 


图 6-9 与 图 6-10 所 示 的 算法 同步 生产 者 与 消费 者 。 #include "buffer.h" 


x ae . /* the buffer */ 
缓冲 区 还 需要 一 个 初始 化 函数 ， 实 现 互 斥 对 象 en oa A 


mutex 和 信号 量 empty 与 full 的 初始 化 。 
int insert_item(buffer_item item) { 
函数 main() 初始 化 缓冲 和 创建 生产 者 与 消费 /* insert item into buffer 
者 线程 。 在 创建 了 生产 者 与 消费 者 线程 后 函数 | retum -1 indicating an error condition */ 
main() 将 睡眠 一 段 时 间 ， 当 唤醒 时 终止 应 用 程序 。 |} 


函数 main() 有 三 个 命令 行 参 数 ; int remove_item(buffer_item *item) { 
> /* remove an object from buffer 
e 终止 前 要 睡 多 长 时 间 。 placing it in item 


。 生产 者 线程 的 数量 。 Feta, of Eto oh acct mica 4 
e 消费 者 线程 的 数量 。 
这 个 函数 的 框架 如 图 6-25 所 示 。 图 6-24 缓冲 区 操作 框架 
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#include "buffer.h" 
int main(int argc, char *argv[]) { 
/* i. 
/* 2. Initialize buffer */ 
/* 3. Create producer thread(s) */ 
/* 4, Create consumer thread(s) */ 
/* 5. Sleep */ 
/* 6. Exit */ 
} 
图 6-25 
生产 者 与 消费 者 线程 


生产 者 线程 不 断交 蔡 执 行 如 下 两 个 动作 : 睡 
眠 一 段 随机 时 间 ， 向 缓冲 区 搬入 一 个 随机 数 。 
随机 数 由 函数 rand() 生成 ， 它 的 值 位 于 0 与 
RAND_MAX 之 间 。 消 费 者 也 睡眠 一 段 随机 时 间 ， 
当 唤醒 时 会 试图 从 缓冲 区 内 取出 一 项 。 生 产 者 与 
消费 者 线程 的 框架 如 图 6-26 所 示 。 

如 前 所 述 ， 解 决 这 个 问题 可 以 采用 Pth- 
reads 或 者 Windows API, Fil, 我 们 提供 这 两 者 
的 更 多 信息 。 

Pthreads 线程 的 创建 与 同步 

Pthreads API 的 线程 创建 已 在 4.4.1 节 讨论 
过 。Pthreads 的 互 斥 锁 和 信和 号 量 已 在 6.9.4 节 讨 论 
过 。 有 关 Pthreads 的 线程 创建 和 同步 的 特定 说 明 
请 参阅 这 些 部 分 。 

Windows 

4.4.2 节 讨 论 了 采用 Windows API 来 创建 线 
程 。 有 关 创 建 线程 的 特定 说 明 请 参考 之 。 
Windows 互 斥 锁 

互 斥 锁 是 一 种 调度 对 象 ， 如 6.9.1 节 所 述 。 


Get command line arguments argv[1],argv[2],argv[3] */ 


一 





程序 框架 





#include <stdlib.h> /* required for rand() */ 
#include "buffer.h" 





















void *producer(void *param) { 
buffer_item item; 






while (true) { 

/* sleep for a random period of time */ 
sleep(...); 
/* generate a random number */ 
item = rand(); 
if (insert_item(item)) 

fprintf("report error condition"); 
else 

printf("producer produced %d\n", item) ; 





} 


void *consumer(void *param) { 
buffer_item item; 


while (true) { 
/* sleep for a random period of time */ 
sleep(...); 
if (remove_item(&item) ) 
fprintf("report error condition"); 
else 
printf ("consumer consumed %d\n", item); 


= 





图 6-26 生产 者 和 消费 者 线程 的 框架 


下 面 说 明 如 何 通过 函数 CreateMutex() 来 创建 互 斥 锁 : 


#include <windows.h> 


HANDLE Mutex; 
Mutex = CreateMutex(NULL, FALSE, NULL); 


第 一 个 参数 指定 互 斥 锁 的 安全 属性 。 当 设 为 NULL 时 ， 不 允许 创建 这 个 互 斥 锁 进 程 的 任何 子 进程 ， 继 
承 该 锁 的 句柄 。 第 二 个 参数 表示 该 锁 的 创建 者 是 否 是 它 的 初始 所 有 者 ; 当 参 数 为 FALSE 时 ， 该 锁 的 创 
建 线 程 不 是 初始 所 有 者 (关于 如 何 获 取 锁 ， 下 面 会 讨论 )。 第 三 个 参数 表示 锁 的 命名 。 当 传递 NULL 时 ， 
就 不 对 其 命名 。 如 果 成 功 ，CreateMutex() 返回 互 斥 锁 的 句柄 ; 否则 ， 它 返回 NULL, 

6.9.1 节 讨 论 了 调度 对 象 状态 ， 触发 态 (signaled) 与 非 触发 态 (nonsignaled)。 触 发 态 对 象 (如 互 斥 
锁 ) 可 以 被 拥有 ; 一 旦 被 获取 ， 就 转 为 非 触发 态 。 当 被 释放 后 ， 就 转 为 触发 态 。 

互 斥 锁 通 过 函数 WaitForSingle0bject() 来 获取 。 第 一 个 参数 为 锁 的 句柄 ， 而 第 二 个 参数 为 表 
示 等 待 多 久 的 标记 。 以 下 代码 说 明了 如 何 获 取 上 面 创建 的 锁 : 
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WaitForSingleObject(Mutex, INFINITE); 


SRA INFINITE 表示 ， 为 了 可 用 的 锁 我 们 将 等 待 无 穷 长 的 时 间 。 其 他 值 表 示 ， 如 果 在 规定 时 间 内 锁 
不 可 用 ,那么 可 以 允许 调用 线程 超时 。 如 果 锁 处 于 触发 态 时 ， 那 么 WaitForSingleObject() 就 立即 
返回 ， 锁 处 于 非 触发 态 。 调 用 ReleaseMutex() 可 以 释放 锁 ( 转 为 非 触 发 态 )， 如 ; 


ReleaseMutex (Mutex); 306 


Windows 信和 号 量 
Windows API 中 的 信号 量 也 是 调度 对 象 ， 它 的 触发 机 制 与 互 斥 锁 一 样 。 信 和 号 量 创建 如 下 : 


#include <windows.h> 


HANDLE Sem; 
Sem = CreateSemaphore(NULL, 1, 5, NULL); 


第 一 个 参数 与 最 后 一 个 参数 表示 安全 属性 和 信和 号 量 的 名 称 ， 这 与 互 斥 锁 一 样 。 第 二 个 参数 和 第 三 个 参 
数 表示 信和 号 量 的 初 值 与 最 大 值 。 在 这 里 ， 初 值 为 1， 最 大 值 为 5。 如 果 CreateSemaphore() MI), HR 
么 返回 指向 互 斥 锁 的 句柄 ; 和 否则， 返回 NULL, 

与 互 斥 锁 一 样 ， 信 和 号 量 可 以 通过 WaitForSingleObject() 来 获取 。 对 于 本 例 创建 的 信号 量 Sem, 
可 以 通过 如 下 方法 来 获取 : 

WaitForSingleObject (Semaphore, INFINITE); 
如 果 信 号 量 的 值 为 >0， 那么 信号 量 处 于 触发 态 ， 且 可 以 为 调用 线程 所 获取 。 和 否则 ， 由 于 指定 了 
INFINITE， 所 以 调用 线程 会 无 穷 等 待 ， 直 到 信和 号 量 为 触发 态 。 

Windows 信号 量 的 操作 signal() 为 函数 ReleaseSemaphore()。 这 个 函数 有 三 个 参数 ， 

。 信和 号 量 的 句柄 。 

。 信和 号 量 的 增 量 的 大 小 。 

e 信号 量 初 值 的 指针 。 

用 下 面 的 语句 ， 按 1 来 递增 信号 量 sem: 

ReleaseSemaphore(Sem, 1, NULL); 


如 果 成 功 ，ReleaseSemaphore() 与 ReleaseMutex() 返回 非 0; 否则 ， 返回 0。 


推荐 读物 


Dijkstra (1965) 的 经 典 论文 首先 论述 了 互 斥 问题 。 荷 兰 数学 家 T. Dekker 开发 了 Dekker 算法 ( 习 
题 6.2 )， 这 是 首 个 双 进 程 互 斥 问题 的 正确 的 软件 解决 方法 。Dijkstra (1965) 也 讨论 了 这 个 算法 。Pe- [307 
terson ( 1981 ) (图 6-2 ) 给 出 了 一 个 双 进 程 互 斥 问题 的 更 简单 的 解决 方法 。Dijkstra (1965) 提出 了 信 
号 量 的 概念 。 

我 们 描述 的 进程 协调 的 经 典 问题 为 一 大 类 的 并 发 控制 问题 的 范例 。Dijkstra ( 1965 ) 与 Dijkstra 
(1971 ) 提出 了 有 界 缓冲 区 问题 和 哲学 家 就 餐 问 题 。Courtois 等 (1971) 提出 了 读者 - 作者 问题 。 

Hoare ( 1972 ) 与 Brinch-Hansen ( 1972 ) 提出 了 临界 区 的 概念 。Brinch-Hansen (1973 ) 提出 了 管 
程 的 概念 。Hoare (1974) 完整 讨论 了 管 程 。 

Mauro 和 McDougall (2007 ) 讨论 了 Solaris 的 加 锁 机 制 细节 。 如 前 所 述 ，Solaris 内 核 的 加 锁 机 
制 实现 ， 与 用 户 级 线程 一 样 ， 所 以 同样 类 型 的 锁 可 在 内 核 的 内 外 一 样 可 用 。Solomon 和 Russinovich 
(2000 ) 给 出 了 Windows 2000 的 同步 细节 。Love (2010) 描述 了 Linux 内 核 的 同步 。 

Lewis 和 Berg (1998) 以 及 Butenhof (1997) 提供 了 Pthreads 编程 的 信息 。Hart (2005) 描述 
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T Windows 的 线程 同步 。Goetz 等 (2006 ) 详细 讨论 了 Java 并 发 编程 和 软件 包 java.util.concurrent, 
Breshears ( 2009 ) 和 Pacheco (2011) 详细 讨论 了 并 行 编程 的 同步 问题 。Lu 等 (2008) 深入 分 析 了 真 
实 应 用 程序 内 的 并 发 错误 。 

Adl-Tabatabai 等 (2007 ) 讨论 了 事务 内 存 。 采 用 OpenMP 的 细节 ， 见 http://openmp.org。 采 用 
Erlang 和 Scala 的 函数 式 编程 ， 分 别 参 见 Armstrong (2007 ) 和 Odersky 等 ( 2006 )。 
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在 多 道 程序 环境 中 ， 多 个 进程 可 以 竞争 有 限 数量 的 资源 。 当 一 个 进程 申请 资源 时 ， 如 果 
这 时 没有 可 用 资源 ， 那 么 这 个 进程 进入 等 待 状态 。 有 了 时， 如 果 所 申请 的 资源 被 其 他 等 待 进程 
占有 ， 那 么 该 等 待 进程 有 可 能 再 也 无 法 改变 状态 。 这 种 情况 称 为 死 锁 (deadlock)。 第 6 章 已 
经 结合 信号 量 讨 论 了 这 类 情况 。 

或 许 ， 死 锁 的 最 好 例证 是 Kansas 立法 机 构 在 20 世纪 初 通过 的 一 项 法 律 ， 其 中 说 到 “ 当 
两 列 列 车 在 十 字 路 口 逼 近 时 ， 它 们 应 完全 停 下 来 ， 并 且 在 一 列 列 车 开 走 之 前 另 一 列 列车 不 能 
再 次 启动 。” 

本 章 描 述 一 些 方法 ， 以 供 操 作 系 统 预防 或 处 理 死 锁 。 虽 然 有 些 应 用 程序 可 以 识别 可 能 死 
锁 的 程序 ， 但 是 操作 系统 一 般 并 不 提供 死 锁 预防 设施 ， 而 程序 员 有 责任 确保 他 们 设计 无 死 锁 
的 程序 。 鉴 于 目前 趋势 ， 如 进程 的 数量 更 多 ， 程 序 的 多 线程 化 ， 系 统 资源 更 多 ,持久 文件 和 
数据 库 服务 器 〈 而 不 是 批 处 理 系统 ) 更 受 重视 ， 死 锁 问题 只 会 越 来 越 普 遍 。 

本 章 目标 

© 解释 死 锁 ， 即 一 组 并 发 进程 不 能 完成 执行 任务 。 

o 提出 一 些 方法 ， 以 便 预防 或 避免 计算 机 系统 内 的 死 锁 。 


7.1 系统 模型 


有 一 个 系统 拥有 有 限 数 量 的 资源 ， 需 要 分 配 到 若干 竞争 进程 。 这 些 资源 可 以 分 成 多 种 类 
型 ， 每 种 类 型 有 一 定数 量 的 实例 。 资 源 类 型 有 很 多 ， 如 CPU 周期 、 文 件 、L/O 设备 (打印 机 
和 DVD 驱动器) 等 。 如 果 一 个 系统 有 两 个 CPU ， 那 么 资源 类 型 CPU 就 有 两 个 实例 。 类 似 
地 ， 资 源 类 型 打印 机 可 能 有 5 个 实例 。 

如 果 一 个 进程 申请 某 个 资源 类 型 的 一 个 实例 ， 那 么 分 配 这 种 类 型 的 任何 实例 都 可 满足 
申请 。 否 则 ， 这 些 实 例 就 不 相同 ， 并 且 资 源 分 类 没有 定义 正确 。 例 如 ， 一 个 系统 有 两 台 打印 
机 。 如 果 没 有 人 关心 哪 台 打印 机 打印 哪些 输出 ， 那 么 这 两 台 打 印 机 可 定义 为 属于 同样 的 资源 
类 型 。 然 而 ， 如 果 一 台 打 印 机 在 九 楼 ， 而 另 一 台 在 底 楼 ， 那 么 九 楼 的 用 户 就 不 会 认为 这 两 台 
打印 机 是 相同 的 ， 这 样 每 个 打印 机 就 可 能 需要 定义 成 属于 单独 的 类 型 。 

第 6 章 讨 论 各 种 同步 工具 ， 如 互 斥 锁 和 信和 号 量 。 这 些 工具 也 应 作为 系统 资源 ， 它 们 是 常 
见 的 死 锁 源 。 然 而 ， 一 个 锁 通 常 与 保护 某 个 特定 的 数据 结构 相关 联 ， 即 一 个 锁 可 用 于 保护 队 
列 的 访问 ， 另 一 个 锁 保 护 访 问 链接 列表 的 访问 ， 等 等 。 由 于 这 个 原因 ， 每 个 锁 通 常 有 自己 的 
资源 类 型 ， 并 且 这 种 定义 不 是 一 个 问题 。 

进程 在 使 用 资源 前 应 申请 资源 ， 在 使 用 资源 之 后 应 释放 资源 。 一 个 进程 可 能 要 申请 许多 
资源 ， 以 便 完成 指定 任务 。 显 然 ， 申 请 的 资源 数量 不 能 超过 系统 所 有 资源 的 总 和 。 换 言 之 ， 
如 果 系 统 只 有 两 台 打 印 机 ,那么 进程 就 不 能 申请 三 台 打印 机 。 

在 正常 操作 模式 下 ， 进 程 只 能 按 如 下 顺序 使 用 资源 : 

1. 申请 : 进程 请 求 资源 。 如 果 申 请 不 能 立即 被 允许 (例如 ， 申 请 的 资源 正在 被 其 他 进程 
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使 用 )， 那 么 申请 进程 应 等 待 ， 直 到 它 能 获得 该 资源 为 止 。 

2. 使 用 : 进程 对 资源 进行 操作 (例如 ， 如 果 资 源 是 打印 机 ， 那 么 进程 就 可 以 在 打印 机 上 
打印 了 )。 

3. 释放 : 进程 释放 资源 。 

如 第 2 章 解 释 的 ， 资 源 的 申请 与 释放 可 能 是 系统 调用 。 例 如 ， 系 统 调 用 : request()/ 
release()(iZ#),open()/close()(X{#),allocate()/free()(A#F) 等 。 正 如 第 6 章 所 述 ， 
信号 量 的 请 求 和 释放 可 采用 信号 量 的 操作 wait() 和 signal() 或 互 斥 锁 的 acquire() 和 
release()。 当 进程 或 线程 每 次 使 用 内 核 管理 的 资源 时 ， 操 作 系 统 会 检查 以 确保 该 进程 或 线 
程 已 经 请 求 并 获得 了 资源 。 系 统 表 记 录 每 个 资源 是 否 是 空闲 的 或 分 配 的 。 对 于 每 个 已 分 配 的 
资源 ， 该 表 还 记录 了 它 被 分 配 的 进程 。 如 果 进 程 申请 的 资源 正在 为 其 他 进程 所 使 用 ， 那 么 该 
进程 会 添加 到 该 资源 的 等 待 队 列 上 。 

当 一 组 进程 内 的 每 个 进程 都 在 等 待 一 个 事件 ， 而 这 一 事件 只 能 由 这 一 组 进程 的 另 一 个 进 
程 引起 ， 那 么 这 组 进程 就 处 于 死 锁 状 态 。 这 里 所 关心 的 主要 事件 是 资源 的 获取 和 释放 。 资 源 可 
能 是 物理 资源 (例如 ， 打 印 机 、 磁 带 驱动 器 、 内 存 空 间 和 CPU 周期 ) 或 逻辑 资源 (例如 ， 信 号 
量 、 互 斥 锁 和 文件 )。 然 而 ， 其 他 类 型 的 事件 也 会 导致 死 锁 (例如 ， 第 3 章 讨论 的 IPC 功能 )。 

为 说 明 死 锁 状 态 ， 假 设 一 个 系统 具有 三 个 CD 刻录 机 。 假 定 有 三 个 进程 ， 每 个 进程 都 占 
用 了 一 台 CD 刻录 机 。 如 果 每 个 进程 现在 需要 另 一 台 刻 录 机 ， 那 么 这 三 个 进程 会 处 于 死 锁 状 
态 。 每 个 进程 都 在 等 待 事件 “ CD 刻录 机 被 释放 ”， 这 仅 可 能 由 一 个 等 待 进程 来 完成 。 这 个 
例子 说 明了 涉及 同一 种 资源 类 型 的 死 锁 。 

死 锁 也 可 能 涉及 不 同 资源 类 型 。 例 如 ， 假 设 一 个 系统 有 一 台 打 印 机 和 一 台 DVD 驱动 
器 。 假 如 进程 己 占 有 DVD 驱动 器 而 进程 占有 打印 机 。 如 果 Pi 申请 打印 机 而 已 申请 
DVD Skah, ABA mies tt LIEB 

多 线程 应 用 程序 的 开发 人 员 应 始终 警惕 可 能 的 死 锁 。 第 6 章 所 述 的 加 锁 工 具 设计 成 避免 
竞争 条 件 。 然 而 ， 在 使 用 这 些 工 具 时 ， 开 发 人 员 应 特别 注意 如 何 获得 和 释放 锁 。 和 否则 ， 可 能 
REM, 请 参见 6.7.3 节 哲 学 家 就 餐 问题 的 说 明 。 


7.2 死 锁 特征 


当 死 锁 时 ， 进 程 永远 不 能 完成 ， 系 统 资 源 被 阻碍 使 用 ， 以 致 于 阻止 了 其 他 作业 开始 执 
行 。 在 讨论 处 理 死 锁 问题 的 各 种 方法 之 前 ， 我 们 首先 深入 讨论 一 下 死 锁 特点 。 


互 斥 锁 的 死 锁 

我 们 来 看 看 一 个 采用 互 乒 锁 的 多 线程 Pthreads 程序 如 何 可 能 发 生死 锁 。 函 数 
pthread mutex_init() 将 一 个 互 斥 锁 初 始 化 为 未 加 锁 。 函 数 pthread_mutex_lock() 
和 pthread_mutex_unlock() 分 别 获取 释放 互 斥 锁 。 当 一 个 线程 试图 获取 一 个 已 加 银 
的 互 斥 锁 时 ， 它 会 阻塞 ， 直 到 该 互 斥 锁 的 所 有 者 调用 pthread_mutex_unlock()。 

如 下 代码 创建 两 个 互 斥 锁 : 


/* Create and initialize the mutex locks */ 
pthread mutex t first mutex; 
pthread mutex t second mutex; 


wz 


pthread mutex_init (&first_mutex,NULL) ; 
pthread_mutex_init (&second mutex ,NULL) ; 
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接着 ， 创 建 两 个 线程 ， 即 thread_one 和 thread two; 这 些 线程 都 能 访问 两 个 互 斤 锁 。 
如 下 所 示 ，thread_one 和 thread_two 分 别 运 行 在 函数 do_work_one() 和 do_work 
two() 中 : 


/* thread one runs in this function */ 
void *do_work_one(void *param) 
pthread mutex_lock(&first_mutex) ; 
pthread_mutex_lock(&second_mutex) ; 
/** 
* Do some work 
*/ 
pthread_mutex_unlock(&second mutex) ; 
pthread_mutex_unlock(&first_mutex) ; 


pthread_exit (0) ; 
} 


/* thread_two runs in this function */ 
void *do_work_two(void *param) 
pthread_mutex_lock(&second mutex) ; 
pthread_mutex_lock(&first_mutex) ; 
/** 
* Do some work 
*/ . 
pthread _mutex_unlock(&first_mutex) ; 
pthread_mutex_unlock(&second_mutex) ; 


pthread_exit(0); 


在 这 个 例子 中 ,thread_one 试 图 获取 互 斥 锁 的 顺序 为 : 1) first_mutex, 2) second_ 
mutex; 而 thread_two 试图 获取 互 斥 锁 的 顺序 为 : 1 ) second_mutex, 2) first_mutex。 
如 果 thread_one 获得 了 first_mutex 而 且 thread_two 获得 了 second_mutex， 有 可 能 
死 锁 。 

请 注意 ， 即 使 有 可 能 死 锁 ， 但 它 不 一 定 会 发 生 。 例 如 ， 在 thread_two 获取 两 个 互 斥 
锁 之 前 ，thread_ Wi first_mutex 和 second_mutex。 而 且 ， 线 程 运行 的 
顺序 自然 是 由 CPU 调度 程序 决定 的 。 这 个 例子 说 明了 一 个 问题 : 和 
难度 的 ， 因 为 它们 只 在 某 些 调度 情况 下 才 会 发 生 。 


7.2.1 必要 条 件 


如 果 在 一 个 系统 中 以 下 四 个 条 件 同 时 成 立 ， 那 么 就 能 引起 死 锁 

e BF (mutual exclusion); 至 少 有 一 个 资源 必须 处 于 非 共享 模式 ， 即 一 次 只 有 一 个 进 
程 可 使 用 。 如 果 男 一 进程 申请 该 资源 ， 那 么 申请 进程 应 等 到 该 资源 释放 为 止 。 

e 占有 并 等 待 (hold and wait): 一 个 进程 应 占有 至 少 一 个 资源 ， 并 等 待 男 一 个 资源 ， 而 
该 资源 为 其 他 进程 所 占有 。 

e 非 抢 占 (no preemption): 资源 不 能 被 抢占 ， 即 资源 只 能 被 进程 在 完成 任务 后 自愿 
释放 。 

© 循环 等 待 (circular wait): 有 一 组 等 待 进程 {Po, Pi, …, Pn}, Po 等 待 的 资源 为 Pi SA, 
Pi 等 待 的 资源 为 己 占 有,，…… Pri 等 待 的 资源 为 Pa 占有 , 忆 等 待 的 资源 为 Po 占有 。 

我 们 强调 所 有 四 个 条 件 必须 同时 成 立 才 会 出 现 死 锁 。 循 环 等 待 条 件 意味 着 占有 并 等 待 条 

件 ， 这 样 四 个 条 件 并 不 完全 独立 。 然 而 ， 在 7.4 节 将 会 看 到 分 开 考虑 这 些 条 件 还 是 有 用 的 。 
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7.2.2 资源 分 配 图 


通过 称 为 系统 资源 分 配 图 (system resource-allocation graph) 的 有 向 图 可 以 更 精确 地 描 
述 死 锁 。 该 图 包括 一 个 节点 集合 下 和 一 个 边 集 合 E HARA 子 可 分 成 两 种 类 型 : P = {Pi， 
Pa, …, Pa} (系统 所 有 活动 进程 的 集合 ) 和 R= {Ri, Ro, ++, Rn} (系统 所 有 资源 类 型 的 集合 )。 
从 进程 Pj 到 资源 类 型 Rj 的 有 向 边 记 为 P; 一 Rj， 它 表示 进程 Pi 已 经 申请 了 资源 类 型 丸 
的 一 个 实例 ， 并 且 正 在 等 待 这 个 资源 。 从 资源 类 型 R 到 进程 P; 的 有 向 边 记 为 R> P, ER 
示 资 源 类 型 Rj 的 一 个 实例 已 经 分 配给 了 进程 Po AEA P; > R PRA RHI (request edge), 
有 向 边 Rj 一 Pi 称 为 分 配 边 (assignment edge). 
在 图 形 上 ， 用 圆 表示 进程 P;:， 用 和 矩形 表示 资源 类 型 Rj。 由 于 资源 
类 型 Rj 可 能 有 多 个 实例 ， 所 以 矩形 内 的 点 的 数量 表示 实例 数量 。 注 意 
申请 边 只 指向 矩形 Rj， 而 分 配 边 应 指定 矩形 内 的 某 个 圆 点 。 
当 进程 P; 申 请 资源 类 型 Rj 的 一 个 实例 时 ， 就 在 资源 分 配 图 中 加 
入 一 条 申请 边 。 当 该 申请 可 以 得 到 满足 时 ， 那 么 申请 边 就 立即 转换 成 
分 配 边 。 当 进程 不 再 需要 访问 资源 时 ， 它 就 释放 资源 ， 因 此 就 删除 了 
分 配 边 。 
图 7-1 的 资源 分 配 图 表示 了 如 下 情况 。 
0 RP. RANE: 图 7-1 资源 分 配 图 
a P={P,, Pa, P3} 
ngair BR, Bd 
n B= {Pi Ri, Psy, Rim Poy Bo Ps, Ro Py, RP 315 
e 资源 实例 : 
a 资源 类 型 R 有 1 个 实例 
a 资源 类 型 R 有 2 个 实例 
m 资源 类 型 R 有 1 个 实例 
m 资源 类 型 R 有 3 个 实例 
e 进程 状态 : 
s 进程 Pi 占有 资源 类 型 R 的 1 个 实例 ， 等 待 资源 类 型 R 的 1 个 实例 。 
a 进程 P, 占有 资源 类 型 Ri 的 1 个 实例 和 资源 类 型 R, 的 1 个 实例 ， 等 待 资源 类 型 R 
的 1 个 实例 。 
n 进程 Ps 占有 资源 类 型 R 的 1 个 实例 。 
根据 资源 分 配 图 的 定义 ， 可 以 证 明 : 如 果 分 配 图 没有 环 ， 那 么 系统 就 没有 进程 死 锁 。 如 
果 分 配 图 有 环 ， 那么 可 能 存在 死 锁 。 
如 果 每 个 资源 类 型 刚好 有 一 个 实例 ， 那 么 有 环 就 意味 着 已 经 出 现 死 锁 。 如 果 环 上 的 每 个 
类 型 只 有 一 个 实例 ， 那 么 就 出 现 了 死 锁 。 环 上 的 进程 就 死 锁 。 在 这 种 情况 下 ， 图 中 的 环 就 是 
死 锁 存在 的 充分 且 必 要 条 件 。 
如 果 每 个 资源 类 型 有 多 个 实例 ,那么 有 环 并 不 意味 着 已 经 出 现 了 死 锁 。 在 这 种 情况 下 ， 
图 中 的 环 就 是 死 锁 存在 的 必要 条 件 而 不 是 充分 条 件 。 
为 了 说 明 这 点 ， 下 面 回 到 图 7-1 所 示 资 源 分 配 图 。 假设 进 程 P; 申请 了 资源 类 型 R 的 一 [B16 
个 资源 。 由 于 现在 没有 资源 实例 可 用 ， 所 以 就 增加 了 有 向 边 P; 一 R; (图 7-2 )。 这 时 ， 系 统 
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有 两 个 最 小 环 : 





Pi = Ri > Pa —> Ry P3— RP 
P,— Ri — P3 > R, > Pi 
HERE Pi, PaP Ps EBA T o HERE P 等 待 资源 类 型 Rj， 而 它 又 被 进程 P; 占有 。 进 程 P; 等 待 
进程 Pi 或 进程 Po 以 释放 资源 类 型 Roo Sb, DERE Pi 等 待 进程 Pr 释放 资源 Rio 
现在 考虑 图 7-3 所 示 的 资源 分 配 图 。 在 这 个 例子 中 ， 也 有 一 个 环 : 
人 
然而 ， 并 没有 死 锁 。 注 意 ， 进 程 Py 可 能 释放 资源 类 型 R, 的 实例 。 这 个 资源 可 分 配给 进程 
P;3， 从 而 打破 环 。 





€) 


图 7-2 存在 死 锁 的 资源 分 配 图 图 7-3 具有 环 的 并 未 死 锁 的 资源 分 配 图 


总 而 言 之 ， 如 果 资 源 分 配 图 没有 环 ， 那 么 系统 就 不 处 于 死 锁 状 态 。 如 果 有 环 ， 那 么 系统 
可 能 会 也 可 能 不 会 处 于 死 锁 状 态 。 在 处 理 死 锁 问 题 时 ， 这 点 是 很 重要 的 。 


7.3 ” 死 锁 处 理 方法 


一 般 来 说 ， 处 理 死 锁 问题 有 三 种 方法 : 

© 通过 协议 来 预防 或 避免 死 锁 ， 确 保 系统 不 会 进入 死 锁 状态 。 

© 可 以 允许 系统 进入 死 锁 状 态 ， 然 后 检测 它 ， 并 加 以 恢复 。 

© 可 以 忽视 这 个 问题 ， 认 为 死 锁 不 可 能 在 系统 内 发 生 。 

第 三 种 解决 方案 为 大 多 数 操作 系统 所 采用 ， 包 括 Linux 和 Windows。 因 此 ， 应 用 程序 开发 人 
员 需 要 自己 编写 程序 ， 以 便 处 理 死 锁 。 

接 下 来 ， 我 们 简要 阅 述 每 种 死 锁 处 理 方法 。 然 后 ， 在 7.4 节 一 7.7 节 中 将 详细 讨论 每 种 
算法 。 在 进行 之 前 ， 我 们 应 该 提 一 下 ， 有 些 研究 人 员 认 为 ， 这 些 基 本 方法 不 能 单独 用 于 处 理 
操作 系统 的 所 有 资源 分 配 问题 。 然 而 ， 可 以 将 这 些 基本 方法 组 合 起 来 ， 为 每 种 系统 资源 选择 
一 种 最 佳 方法 。 

为 了 确保 死 锁 不 会 发 生 ， 系 统 可 以 采用 死 锁 预 防 或 死 锁 避免 方案 。 死 锁 预 防 (deadlock 
prevention) 方法 确保 至 少 有 一 个 必要 条 件 (7.2.1 节 ) 不 成 立 。 这 些 方法 通过 限制 如 何 申请 
资源 的 方法 来 预防 死 锁 。7.4 节 将 讨论 这 些 方法 。 

死 锁 避免 ( deadlock avoidance) 要 求 ， 操 作 系 统 事先 得 到 有 关 进 程 申 请 资源 和 使 用 资源 
的 额外 信息 。 有 了 这 些 额外 信息 ， 系 统 可 以 确定 : 对 于 每 个 申请 ， 进 程 是 否 应 等 待 。 为 了 确 
定 当前 申请 是 允许 还 是 延迟 ， 系 统 应 考虑 : 现 有 的 可 用 资源 、 已 分 配给 每 个 进程 的 资源 及 每 
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个 进程 将 来 申请 和 释放 的 资源 。7.5 节 讨 论 这 些 方案 。 

如 果 系 统 不 使 用 死 锁 预防 或 死 锁 避免 算法 ， 那 么 死 锁 情况 可 能 发 生 。 在 这 种 情况 下 ， 系 
统 可 以 提供 一 个 算法 来 检查 系统 状态 以 确定 死 锁 是 否 发 生 ， 提 供 另 一 个 算法 来 从 死 锁 中 恢复 
(如 果 死 锁 确 实 已 经 发 生 )。7.6 节 和 7.7 节 讨 论 这 些 问 题 。 

当 没 有 算法 用 于 检测 和 恢复 死 锁 时 ， 可 能 出 现 这 样 的 情况 : 系统 处 于 死 锁 ， 而 又 没有 方 
法 检测 到 底 发 生 了 什么 。 在 这 种 情况 下 ， 未 被 发 现 的 死 锁 会 导致 系统 性 能 下 降 ， 因 为 资源 被 
不 能 运行 的 进程 占有 ， 而 越 来 越 多 的 进程 会 因 申请 资源 而 进入 死 锁 。 最 后 ， 整 个 系统 会 停止 
工作 ， 且 需要 人 工 重 新 启动 。 

虽然 这 看 起 来 似乎 不 是 一 个 解决 死 锁 问题 的 可 行 方法 ,但 是 它 却 为 大 多 数 操作 系统 所 采 
用 (如 前 所 述 )。 代 价 是 一 个 重要 的 考虑 因素 。 忽 略 死 锁 的 可 能 性 要 比 其 他 方法 更 便宜 。 对 
于 许多 系统 ， 死 锁 很 少 发 生 (如 一 年 一 次 )， 因 此 ， 与 使 用 频繁 的 并 且 开 销 昂贵 的 死 锁 预 防 、 
死 锁 避免 和 死 锁 检测 与 恢复 相 比 ， 这 种 方法 更 为 便宜 。 此 外 ， 用 于 其 他 条 件 的 恢复 方法 也 可 
用 于 死 锁 恢复 。 在 有 些 情况 下 ， 系 统 处 于 冻结 状态 而 不 是 死 锁 状态 。 例 如 ， 我 们 看 到 这 种 情 
况 : 一 个 实时 进程 按 最 高 优先 级 来 运行 (或 其 他 进程 在 非 抢占 调用 程序 下 运行 )， 并 且 不 将 
控制 返回 到 操作 系统 。 因 此 ， 系 统 应 有 人 工 方法 可 从 这 些 状态 中 恢复 过 来 ， 这 些 方法 也 可 用 
于 死 锁 。 


7.4 死 锁 预防 


如 7.2.1 节 所 述 ， 发 生死 锁 有 4 个 必要 条 件 。 只 要 确保 至 少 一 个 必要 条 件 不 成 立 ， 就 能 
预防 死 锁 发 生 。 下 面 ， 通 过 详细 讨论 这 4 个 必要 条 件 来 研究 这 种 方法 。 


7.4.1 BF 


互 斥 条 件 必须 成 立 。 也 就 是 说 ， 至 少 有 一 个 资源 应 是 非 共 享 的 。 相 反 ， 可 共享 资源 不 
要 求 互 斥 访问 ， 因 此 不 会 参与 死 锁 。 只 读 文 件 是 一 个 很 好 的 共享 资源 例子 。 如 果 有 多 个 进程 
试图 同时 打开 一 个 只 读 文件 ， 那 么 它们 可 以 同时 访问 文件 。 进 程 决 不 需要 等 待 共享 资源 。 然 
而 ， 通 常 不 能 通过 和 否定 互 斥 条 件 来 预防 死 锁 ， 因 为 有 的 资源 本 身 就 是 非 共 享 的。 例如 ， 一 个 
互 斥 锁 不 能 同时 被 多 个 进程 所 共享 。 


74.2 RABSH 


为 了 确保 持 有 并 等 待 条 件 不 会 出 现在 系统 中 ， 应 保证 : 当 每 个 进程 申请 一 个 资源 时 ， 它 
不 能 占有 其 他 资源 。 一 种 可 以 采用 的 协议 是 ， 每 个 进程 在 执行 前 申请 并 获得 所 有 资源 。 这 可 
以 这 样 实现 : 要 求 进程 申请 资源 的 系统 调用 在 所 有 其 他 系统 调用 之 前 进行 。 

另外 一 种 协议 允许 进程 仅 在 没有 资源 时 才 可 申请 资源 。 一 个 进程 可 申请 一 些 资源 并 使 用 
它们 。 然 而 ， 在 它 申请 更 多 其 他 资源 之 前 ， 它 应 释放 现 已 分 配 的 所 有 资源 。 

为 了 说 明 这 两 个 协议 之 间 的 差异 ,我 们 有 一 个 进程 ， 它 将 数据 从 DVD 驱动 器 复制 到 磁 
盘 文件 ， 并 对 磁盘 文件 进行 排序 ， 再 打印 结果 到 打印 机 。 如 果 所 有 资源 应 在 进程 开始 之 前 申 
请 ， 那 么 进程 应 一 开始 就 申请 DVD 驱动 器 、 磁 盘 文 件 和 打印 机 。 在 它 的 整个 执行 过 程 中 ， 
它 会 一 直 占 有 打印 机 ， 尽 管 它 只 在 结束 时 才 需 要 打印 机 。 

第 二 种 方法 允许 : 进程 在 开始 时 只 申请 DVD 驱动 器 和 磁盘 文件 。 它 将 复制 数据 从 DVD 
到 磁盘 ， 再 释放 DVD 驱动 器 和 磁盘 文件 。 然 后 ， 进 程 应 再 申请 磁盘 文件 和 打印 机 。 当 复制 
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数据 从 磁盘 文件 到 打印 机 之 后 ， 它 就 释放 这 两 个 资源 并 终止 。 

这 两 种 协议 有 两 个 主要 缺点 。 第 一 ， 资 源 利用 率 可 能 比较 低 ， 因 为 许多 资源 可 能 已 分 
配 ， 但 是 很 长 时 间 没有 被 使 用 。 例 如 ， 在 所 给 的 例子 中 ， 只 有 确认 数据 始终 存 于 磁盘 文件 的 
情况 下 ， 才 可 以 释放 DVD 驱动 器 和 磁盘 文件 ， 并 再 次 申请 磁盘 文件 和 打印 机 资源 。 和 否则 ， 
不 管 采用 哪 种 协议 ， 应 在 开始 之 前 申请 所 有 资源 。 

第 二 ， 可 能 发 生 饥 饿 。 一 个 进程 如 需要 多 个 常用 资源 ， 可 能 必须 永久 等 待 ， 因 为 在 它 所 
需要 的 资源 中 至 少 有 一 个 已 分 配给 其 他 进程 。 


7.4.3 无 抢占 


第 三 个 必要 条 件 是 ， 不 能 抢占 已 分 配 的 资源 。 为 了 确保 这 一 条 件 不 成 立 ， 可 以 采用 如 下 
协议 : 如 果 一 个 进程 持 有 资源 并 申请 另 一 个 不 能 立即 分 配 的 资源 〈 也 就 是 说 ， 这 个 进程 应 等 
待 )， 那 么 它 现 在 分 配 的 资源 都 可 被 抢占 。 换 句 话 说， 这 些 资 源 都 被 隐 式 释放 了 。 被 抢占 资 
源 添加 到 进程 等 待 的 资源 列表 上 。 只 有 当 进 程 获得 其 原 有 资源 和 申请 的 新 资源 时 ， 它 才 可 以 
重新 执行 。 

换 句 话说 ， 如 果 一 个 进程 申请 一 些 资源 ,那么 首先 检查 它们 是 否 可 用 。 如 果 可 用 ， 那 
么 就 分 配 它 们 。 如 果 不 可 用 ,那么 检查 这 些 资源 是 否 已 分 配给 等 待 额外 资源 的 其 他 进程 。 如 
果 是 ， 那 么 从 等 待 进程 中 抢占 这 些 资源 ， 并 分 配给 申请 进程 。 如 果 资 源 不 可 用 且 也 不 被 其 他 
等 待 进程 持 有 ， 那 么 申请 进程 应 等 待 。 当 一 个 进程 处 于 等 待 时 ， 如 果 其 他 进程 申请 其 拥有 资 
源 ， 那 么 该 进程 的 部 分 资源 可 以 被 抢占 。 只 有 当 一 个 进程 分 配 到 申请 的 资源 ， 并 且 恢 复 在 等 
待 时 被 抢占 的 资源 时 ， 它 才能 重新 执行 。 

这 个 协议 通常 用 于 状态 可 以 保存 和 恢复 的 资源 ， 如 CPU 寄存 器 和 内 存 。 它 一 般 不 适用 
于 其 他 资源 ， 如 互 斥 锁 和 信和 号 量 。 


7.4.4 循环 等 待 


死 锁 的 第 四 个 也 是 最 后 一 个 条 件 是 循环 等 待 。 确 保 这 个 条 件 不 成 立 的 一 个 方法 是 : 对 所 
有 资源 类 型 进行 完全 排序 ， 而 且 要 求 每 个 进程 按 递 增 顺 序 来 申请 资源 。 

为 了 说 明 起 见 ， 假 设 资源 类 型 的 集合 为 R = {Ri!，R;,，…，Rw}。 为 每 个 资源 类 型 分 配 一 
个 唯一 整数 ， 这 样 可 以 比较 两 个 资源 以 确定 它们 的 先后 顺序 。 形 式 地 ， 我 们 可 以 定义 一 个 函 
数 F: R 一 N， 其 中 入 是 自然 数 的 集合 。 例 如 ， 如 果 资 源 类 型 R 的 集合 包括 磁带 驱动 器 、 磁 
盘 驱 动 器 和 打印 机 ， 那 么 函数 所 可 以 定义 成 : 

F (磁带 驱动器)= 1 
F (磁盘 了 驱动器)=5 
F (47 WAHL) = 12 

我 们 可 以 采用 如 下 协议 来 预防 死 锁 : 每 个 进程 只 能 按 递增 顺序 申请 资源 。 即 一 个 进程 开 
始 可 申请 任何 数量 的 资源 类 型 Rj 的 实例 。 之 后 ， 当 且 仅 当 F(R) > F(Ri) 时 ， 该 进程 才 可 以 申 
HAWK R 的 实例 。 例 如 ， 采 用 上 面 定 义 的 图 数 ， 一 个 进程 如 要 同时 使 用 磁带 驱动 器 和 
打印 机 时 ， 应 首先 请 求 磁带 驱动 器 ， 然 后 请 求 打 印 机 。 换 句 话 说， 要 求 当 一 个 进程 申请 资源 
类 型 R 时 ， 它 应 先 释 放 所 有 资源 R, (F(R) > FLR))。 请 注意 ， 如 果 需 要 同一 资源 类 型 的 多 
个 实例 ， 那 么 应 一 起 申请 它们 。 

如 果 使 用 这 两 个 协议 ， 那 么 循环 等 待 就 不 可 能 成 立 。 通 过 反 证 法 可 以 证 明 这 一 点 。 假 
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定 存在 一 个 循环 等 待 。 设 循环 等 待 的 进程 集合 为 {Pp，P1，…，P,} ， 其 中 P; 等 待 一 个 资源 
R, WR RAGE Pri 所 占有 。( 对 于 索引 采用 取 模 运算 ， 因 此 P, 等 待 由 Po 所 占有 的 资源 
R,)。 因 此 ， 由 于 进程 P+ 占有 资源 R; 而 同时 申请 资源 Rai， 所 以 对 所 有 i， 我们 有 F(R) < 
F(Ri1)。 而 这 意味 着 F(Ro) < F(R1) <… < F(R,) < F(R0o)。 根 据 传递 规则 ，F(R0) < F(Ro), X È 
然 是 不 可 能 的 。 因 此 ， 不 可 能 有 循环 等 待 。 
通过 对 系统 内 所 有 同步 对 象 进 行 完 全 排序 ， 可 以 在 应 用 程序 中 实现 这 种 方案 。 所 有 这 些 
同步 对 象 的 请 求 应 按 递增 顺序 进行 。 例 如 ， 如 果 将 图 7-4 所 示 的 Pthreads 程序 的 锁 的 顺序 定 
SOW: 
F(first_mutex)=1 
F(second_mutex)=5 
ABA thread_two 不 能 按 错 误 顺 序 来 申请 锁 。 
请 记 住 ， 设 计 一 个 完全 排序 或 层次 结构 本 身 不 能 防止 死 锁 ， 而 是 要 靠 应 用 程序 员 
来 按 顺 序 编写 程序 。 另 外 ， 函 数 正 应 该 根据 系统 内 资源 使 用 的 正常 顺序 来 定义 。 例 如 ， 
由 于 磁带 驱动 器 通常 在 打印 机 之 前 使 用 ， 所 以 定义 下 (磁带 驱动 器 ) < F (打印机) 较为 
合理 。 
虽然 应 用 程序 员 有 责任 确保 按 适 当 顺 序 获取 资源 ， 但 是 有 些 软件 可 以 用 来 验证 是 否 按 顺 
序 来 获取 锁 的 。 如 果 不 按 顺序 申请 且 可 能 出 现 死 一 一 一 一 一 一 一 一 一 一 一 一 一 一 
锁 ， 那 么 这 些 软件 会 给 出 适当 警告 。witness， 运 | Soia sdo nork 人 oo */ 
行 于 BSD UNIX (如 FreeBSD)， 就 是 一 种 锁 顺 序 


pthread_mutex_lock(&first_mutex) ; 


验证 器 > witness K 用 HJE 锁 来 保护 临 界 区 域 如 pthread_mutex_lock(&second_mutex) ; 





第 6 章 所 述 ， 它 通过 动态 维护 系统 内 的 锁 顺序 来 |。 “> pe sone vork 

工作 。 下 面 通 过 图 7-4 所 7K 的 例 F 来 说 明 o 假设 US ; 
thread one 首先 获取 锁 ， 并 按 如 下 顺序 : 1) first_ pthread _mutex_unlock(&first_mutex) ; 
mutex, 2) second_mutex, witness 会 记录 这 种 pthread_exit (0) ; 





} 
XA: FEM first_mutex 应 在 获取 seond_mutex 
/* thread_two runs in this function */ 


之 前 进行 。 如 果 thread_two 后 来 不 按 这 个 顺序 来 void *do_work_two(void *param) 
EIR, A witness 就 在 系统 终端 上 生成 一 个 警 | 1 


pthread.mutex_lock(&second_mutex) ; 





告 信 H pthread mutex lock(&first mutex); 
ini /** 
同样 重要 的 是 要 注意 ， 如 果 能 动态 地 获取 锁 * Do some work 


*/ 


那么 制定 一 个 加 锁 的 顺序 并 不 保证 死 锁 预防 。 例 pthread_mutex_unlock(&first_mutex) ; 
如 ， 假设 我 们 有 一 个 在 两 个 账户 之 间 转移 资金 的 pthread mutex unlock(&second mutex) ; 


函数 。 为 了 防止 竞争 条 件 ， 每 个 账户 者 有 一 个 相关 | | me | 
aT Ee lock 得 ， 
ipl 它 可 通过 函数 get_lock() 来 获得 ， 如 图 7-4” 死 锁 的 例子 


如 果 两 个 线程 同时 调用 函数 transaction()， 在 不 同 账户 之 间 转 账 ， 那 么 有 可 能 死 锁 
也 就 是 说 ， 一 个 线程 可 能 调用 

transaction(checking-account, savings-account, 25); 
另 一 个 可 能 会 调用 


transaction(savings_account, checking_account, 50); 
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如 何 解决 这 种 情况 ， 我 们 作为 练习 留 给 读者 。 


void transaction(Account from, Account to, double amount) 
mutex locki, lock2; 
locki = get_lock(from) ; 
lock2 = get_lock(to); 


acquire (lock1) ; 


acquire (lock2) ; 


withdraw(from, amount) ; 
deposit (to, amount); 


release (lock2) ; 
release(lock1); 





图 7-5 加 锁 顺 序 的 死 锁 示例 


7.5 死 锁 避 免 


在 7.4 节 讨 论 的 死 锁 预防 算法 中 ， 通 过 限制 如 何 申请 资源 来 预防 死 锁 。 这 种 限制 确保 ， 
至 少 有 一 个 死 锁 的 必要 条 件 不 会 发 生 。 然 而 ， 通 过 这 种 方法 预防 死 锁 有 副作用 : 设备 使 用 率 
低 和 系统 吞吐 率 低 。 

避免 死 锁 的 另 一 种 方法 需要 额外 信息 ， 即 如 何 申请 资源 。 例 如 ， 有 一 台 磁 带 驱动 器 和 一 
台 打印 机 的 系统 可 能 需要 知道 : 进程 将 会 先 申 请 磁带 驱动 器 ,再 申请 打印 机 ， 最 后 释放 这 
些 资源 ; 而 进程 2 将 会 先 申请 打印 机 ， 再 申请 磁带 驱动 器 。 在 获悉 每 个 进程 的 请 求 与 释放 
的 完整 顺序 之 后 ， 系 统 可 以 决定 ， 在 每 次 请 求 时 进程 是 否 应 该 等 待 以 避免 未 来 可 能 的 死 锁 。 
针对 每 次 申请 要 求 ， 系 统 在 做 决定 时 考虑 现 有 可 用 资源 、 现 已 分 配给 每 个 进程 的 资源 和 每 个 
进程 将 来 申请 与 释放 的 资源 。 

采用 这 种 方法 的 算法 有 许多 ， 它 们 在 所 要 求 的 信息 类 型 和 数量 上 有 差异 。 最 简单 且 最 
有 用 的 模型 要 求 ， 每 个 进程 都 应 声明 可 能 需要 的 每 种 类 型 资源 的 最 大 数量 。 鉴 于 这 个 先 验 信 
息 ， 有 可 能 构造 一 个 算法 ， 以 便 确保 系统 不 会 进入 死 锁 状态 。 死 锁 避 免 算 法 动态 检查 资源 分 
配 状态 ， 以 便 确 保 循 环 等 待 条 件 不 能 成 立 。 资 源 分 配 状 态 包括 可 用 的 资源 、 已 分 配 的 资源 及 
进程 的 最 大 需求 。 下 面 ， 我 们 讨论 两 个 死 锁 避免 算法 。 


7.5.1 安全 状态 


如 果 系 统 能 按 一 定 顺 序 为 每 个 进程 分 配 资源 (不 超过 它 的 最 大 需求 )， 仍 然 避免 死 
锁 ， 那 么 系统 的 状态 就 是 安全 的 (safe)。 更 为 正式 地 说 ， 只 有 存在 一 个 安全 序列 (safe 
sequence)， 系 统 才 处 于 安全 状态 。 进 程序 列 〈 P|，P;，…，P, ) 在 当前 分 配 状态 下 为 安全 序 
列 是 指 : 对 于 每 个 P, Pi 仍然 可 以 申请 的 资源 数 小 于 当前 可 用 资源 加 上 所 有 进程 (其 中 j <i) 
所 占有 的 资源 。 在 这 种 情况 下 ， 进 程 P; 需 要 的 资源 即使 不 能 立即 可 用 ,那么 Pi 可 以 等 待 直 
到 所 有 PP 释放 资源 。 当 它们 完成 时 ，P; 可 得 到 需要 的 所 有 资源 ， 完 成 给 定 任务 ,返回 分 配 
的 资源 ， 最 后 终止 。 当 PIHI, Pa 可 得 到 它 需 要 的 资源 ， 如 此 进行 。 如 果 没 有 这 样 的 序 
列 存在 ， 那 么 系统 状态 就 是 非 安全 的 (unsafe ) 。 

安全 状态 不 是 死 锁 状 态 。 相 反 ， 死 锁 状 态 是 非 安全 状态 。 然 而 ， 不 是 所 有 的 非 安全 状态 


#7Ě Æ 化 221 


都 能 导致 死 锁 状态 (图 7-6 )。 非 安全 状态 可 能 导致 死 锁 。 只 要 在 安全 状态 下 ， 操 作 系统 就 能 
避免 非 安全 (和 死 锁 ) 状态 。 在 非 安全 状态 下 ， 操 作 
系统 不 能 阻止 进程 申请 资源 ， 因 而 可 能 死 锁 。 进 程 行 
为 控制 了 非 安全 状态 。 

为 了 举例 说 明 ， 假 设 一 个 系统 有 12 台 磁 带 驱 动 
器 和 3 ERE Po. Pi, Poo DERE Po 最 多 要 求 10 台 磁 
带 驱动 器 ， 书 最 多 要 求 4 台 磁 带 驱动 器 ， 忆 最 多 要 
求 9 台 磁 带 驱动 器 。 假 设 ， 在 时 间 加 时 ， 进 程 Po 占 
有 5 台 磁 带 驱动 器 ， 进 程 己 占 有 :2 台 磁 带 驱动 器 ， 
进程 P) 占有 2 台 磁 带 驱动 器 。( 因 此 ， 还 有 3 台 空闲 ”图 7-6 安全 、 非 安全 和 死 锁 的 状态 空间 
磁带 驱动 器 。) 





最 大 需求 当前 需求 
Po 10 5 
Pi 4 2 
Py 9 2 


在 时 间 时 ， 系 统 处 于 安全 状态 。 序 列 ( Pi Po, Pa) 满足 安全 条 件 。 进 程 忆 可 以 立 
即 分 配 到 所 有 的 磁带 驱动 器 ， 然 后 返回 它们 (系统 会 有 5 台 可 用 的 磁带 驱动 器 ) ; 接着 ， 进 
FE Po 可 以 得 到 所 有 的 磁带 驱动 顺 ， 再 返回 它们 (系统 会 有 10 台 可 用 的 磁带 驱动 器 ) ; 最 后 ， 
进程 P 可 以 得 到 所 有 磁带 驱动 器 ， 再 返回 它们 《系统 会 有 12 台 可 用 的 磁带 驱动 器 )。 

系统 可 以 从 安全 状态 转 到 非 安 全 状态 。 假 定 在 时 间 时 ， 进 程 P 申请 且 得 到 1 台 磁 带 驱 
动 顺 。 系 统 就 不 再 安全 了 。 这 时 ， 只 有 进程 P 能 得 到 所 有 磁带 驱动 器 。 当 它 返 回 资源 时 ， 系 
KRA 4 台 可 用 的 磁带 驱动 器 。 由 于 进程 Po 已 分 配 了 5 台 磁 带 驱动 器 但 它 的 最 大 需求 为 10 台 
磁带 驱动 器， 所 以 它 还 需要 5 台 磁 带 驱动 器 。 因 为 现在 不 够 ， 所 以 进程 Po 应 等 待 。 类 似 地 ， 
进程 P, 还 需要 6 台 磁 带 驱动 器 ， 也 应 等 待 ， 导 致 了 死 锁 。 我 们 的 错误 在 于 允许 进程 Po 再 次 获 
得 1 台 磁 带 驱动 器。 如 果 让 忆 等 待 直到 其 他 进程 之 一 完成 并 释放 资源 ， 那 么 就 能 避免 死 锁 。 

通过 安全 状态 的 概念 ,我 们 可 以 定义 避免 算法 ， 以 便 确保 系统 不 会 死 锁 。 这 个 想法 简 
单 ， 即 确保 系统 始终 处 于 安全 状态 。 最 初 ， 系 统 处 于 安全 状态 。 当 有 进程 申请 一 个 可 用 资源 
时 ， 系 统 应 确定 : 这 一 资源 申请 是 可 以 立即 分 配 ， 还 是 应 让 进程 等 待 。 只 有 在 分 配 后 系统 仍 
处 于 安全 状态 ， 才 能 允许 申请 。 

采用 这 种 方案 ， 如 果 进 程 申 请 一 个 现 已 可 用 的 资源 ， 那 么 它 可 能 仍然 必须 等 待 。 因 此 ， 
与 没有 采用 死 锁 避免 算法 相 比 ， 这 种 情况 下 的 资源 使 用 率 可 能 更 低 。 


7.5.2 资源 分 配 图 算法 


如 果 有 一 个 资源 分 配 系统 ， 它 的 每 种 资源 类 型 只 有 一 个 实例 ， 那 么 7.2.2 节 定 义 的 资源 
分 配 图 的 变形 可 以 用 于 避免 死 锁 。 除 了 申请 边 和 分 配 边 外 ， 我 们 引入 一 新 类 型 的 边 ， 称 为 需 
求 边 (claim edge)。 需 求 边 慷 一 应 表示 ， 进 程 忆 可 能 在 将 来 某 个 时 候 申 请 资源 局 。 这 种 边 
类 似 于 同一 方向 的 申请 边 ,但 是 用 虚线 表示 。 当 进程 P HIR R At, 需求 边 Pi —> R A 
成 了 申请 边 。 类 似 地 ， MoE RE P, PERC R) AY, 分 配 边 R > Pi 变 成 了 需求 边 Pi 一 Rj。 

请 注意 ， 系 统 资源 的 需求 应 事先 说 明 。 即 当 进 程 P; 开 始 执 行 时 ， 所 有 需求 边 应 先 处 于 
资源 分 配 图 内 。 我 们 也 可 放松 这 个 条 件 : 只 有 在 进程 P; 的 所 有 边 都 为 需求 边 时 ， 才 能 允许 
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将 需求 边 Pi 一 Rj 增加 到 图 中 。 


现在 ,假设 进程 Pi; 申 请 资源 RR。 只 有 在 将 申请 边 Pi 一 Rj 变 成 分 配 边 Rj 一 Pi 并 且 不 会 
导致 资源 分 配 图 形成 环 时 ， 才 能 允许 申请 。 通 过 采用 环 检 测算 法 ,检查 安 全 性 。 检 测 图 中 是 
否 有 环 的 算法 需要 rr 数量 级 的 操作 ， 其 中 n 是 系统 的 进程 数量 。 

如 果 没 有 环 存在 ， 那 么 资源 的 分 配 会 使 得 系统 处 于 安全 状态 。 如 果 有 环 存在 ， 那 么 分 配 
会 导致 系统 处 于 非 安 全 状态 。 在 这 种 情况 下 ， 进 程 Pi; 应 等 待 资源 申请 。 

为 了 说 明 这 个 算法 ,考虑 图 7-7 所 示 的 资源 分 配 图 。 假 设 进程 P 申请 资源 Ro BA Ro 
现在 可 用 , 但 是 不 能 将 它 分 配给 P,， 这 是 因为 这 会 创建 一 个 环 (图 7-8 )。 如 前 所 述 ， 有 环 
表示 系统 处 于 非 安全 状态 。 如 果 Pi 申请 Ro 并且 Po HGR, DRAB RAM. 


R, 


P) P, 
* o? 
* . 
*, . 
%, 本 





R, 


图 7-7 死 锁 避免 的 资源 分 配 图 图 7-8 资源 分 配 图 的 非 安全 状态 


7.5.3 ”银行 家 算法 


对 于 每 种 资源 类 型 有 多 个 实例 的 资源 分 配 系统 ， 资 源 分 配 图 算法 就 不 适用 了 。 下 面 描述 
的 死 锁 避免 算法 适用 这 种 系统 ， 但 是 它 的 效率 不 如 资源 分 配 图 方案 。 这 一 算法 通常 称 为 银行 
家 算法 (banker's algorithm)。 之 所 以 如 此 命名 是 因为 : 这 一 算法 可 用 于 银行 系统 ， 以 确保 
银行 不 会 分 配 现 金 ， 以 致 它 不 再 满足 所 有 客户 的 需要 。 

当 一 个 新 的 进程 进入 系统 时 ， 它 应 声明 可 能 需要 的 每 种 类 型 资源 实例 的 最 大 数量 ， 这 一 
数量 不 能 超过 系统 资源 的 总 和 。 当 用 户 申 请 一 组 资源 时 ， 系 统 应 确定 这 些 资源 的 分 配 是 否 仍 
会 使 系统 处 于 安全 状态 。 如 果 会 ， 就 可 分 配 资源 ; 否则 ， 进 程 应 等 待 ， 直 到 某 个 其 他 进程 释 
放 足 够 多 的 资源 为 止 。 

为 了 实现 银行 家 算法 ， 需 要 有 几 个 数据 结构 。 这 些 数据 结构 对 资源 分 配 系统 的 状态 进行 
了 记录 。 我 们 需要 以 下 数据 结构 ， 这 里 为 系统 进程 的 数量 ，m 为 资源 类 型 的 种 类 : 

e Available: 长 度 为 m 的 向 量 ,， 表示 每 种 资源 的 可 用 实例 数量 。 如 果 Available[ j] =k, 

那么 资源 类 型 R 有 上 个 可 用 实例 。 

e Max: nxm 和 矩阵 ， 定 义 每 个 进程 的 最 大 需求 。 如 果 Max[ill j] =k, WAHE P me 
可 申请 资源 类 型 Rj 的 k 个 实例 。 

Allocation : nxm 矩阵， 定义 每 个 进程 现在 分 配 的 每 种 资源 类 型 的 实例 数量 。 如 果 
Allocation{i][ j] =， 那么 进程 Pi 现在 已 分 配 了 资源 类 型 Rj 的 个 实例 。 
o Need: nxm 和 矩阵 ， 表 示 每 个 进程 还 需要 的 剩余 资源 。 如 果 Need[i][ 有 站 =k， 那 么 进程 
Pi 还 可 能 申请 个 资源 类 型 Rj 的 实例 。 注 意 Need[i][j] = Max[i][/] — Allocation[i][/]. 
这 些 数据 结构 的 大 小 和 值 会 随 着 时 间 而 改变 。 

为 了 简化 银行 家 算法 的 描述 ， 下 面 采 用 一 些 符号 。 设 式 和 了 为 长 度 为 于 的 向 量 。 我 们 
bi: XS Y4AM4MMAI=A1, 2, =, n, A < Yi. WM, MRX=(1, 7, 3, 2) 
im Y=(0, 3, 2,1), IA Y< X. WH, MRY<XAY#X, PAY<xX, 
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Ay KERE Allocation 和 Need 的 每 行 作 为 向 量 ， 并 分 别 用 Allocation; 和 Need; 来 表示 。 
向 量 Allocation; 表示 分 配给 进程 P; 的 资源 ; 向 量 Need; 表示 进程 为 完成 任务 可 能 仍然 需要 申 
请 的 额外 资源 。 
7.5.3.1 安全 算法 
现在 我 们 介绍 这 个 算法 ， 以 求 出 系统 是 否 处 于 安全 状态 。 该 算法 可 以 描述 如 下 : 
1. 令 Work 和 Finish 分 别 为 长 度 m 入 的 向 量 。 对 于 i=0, 1,…, n-1， 初 始 化 Work = 
Available 和 Finish{i] = false. 
2. 查找 这 样 的 i 使 其 满足 
a. Finish[i] == false 
b. Need; < Work 327 
如 果 没 有 这 样 的 i 存在 ， 那么 就 转 到 第 4 步 。 
3. Work = Work + Allocation; 
Finish[i] = true 
返回 到 第 2 步 。 
4. 如 果 对 所 有 i, Finish[i] = true， 那 么 系统 处 于 安全 状态 。 
这 个 算法 可 能 需要 m x wm 数量 级 的 操作 ， 以 确定 系统 状态 是 否 安 全 。 
7.5.3.2 ”资源 请 求 算法 
现在 ， 我 们 描述 判断 是 否 安全 允许 请 求 的 算法 。 
设 Request; 为 进程 Pi 的 请 求 向 量 。 如 果 Requesti[ j] == k, IAHT P; 需 要 资源 类 型 R, 
的 实例 数量 为 k。 当 进程 P; 作 出 这 一 资源 请 求 时 ， 就 采取 如 下 动作 : 
1. 如 果 Request; < Need;,， 转 到 第 2 步 。 否 则 ， 生 成 出 错 条 件 ， 这 是 因为 进程 Pj 已 超过 
了 其 最 大 需求 。 
2. 如 果 Request; < Available， 转 到 第 3 步 。 否 则 ，P; 应 等 待 ， 这 是 因为 没有 资源 可 用 。 
3. 假定 系统 可 以 分 配给 进程 P 请 求 的 资源 ， 并 按 如 下 方式 修改 状态 ; 
Available = Available—Request; 
Allocation; = Allocation; + Request; 
Need; = Need; —Request; 
如 果 新 的 资源 分 配 状态 是 安全 的 ， 那 么 交易 完成 且 进 程 P 可 分 配 到 需要 的 资源 。 然 而 ， 
如 果 新 状态 不 安全 ， 那 么 进程 Pi 应 等 待 Request 并 恢复 到 原来 的 资源 分 配 状态 。 
7.5.3.3 ”说 明示 例 
为 了 说 明 银 行家 算法 的 使 用 ， 假 设 有 一 个 系统 ， 它 有 5 个 进程 Po 到 Ps, 3 种 资源 类 型 
4、B8、C。 资 源 类 型 4 有 10 个 实例 ， 资 源 类 型 有 5 个 实例 ， 资 源 类 型 C 有 7 个 实例 。 假 
定 在 时 间 mi， 系统 状态 如 下 : 





Allocation Max Available 
ABC ABC ABC 
Po 010 753 332 
P; 200 322 
P, 302 902 
P, BML 222 


Pa 002 433 328 
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矩阵 Need 的 内 容 定义 成 Max-Allocation: 


Need 
ABC 


Py 743 
P, 122 
P, 600 
P; 011 
Py 431 


我 们 认为 这 个 系统 现在 处 于 安全 状态 。 事 实 上 ， 序 列 〈《 Pi,P;3,P4,P;,Po) 满足 安全 要 求 。 
现在 假定 进程 Pi 再 请 求 1 个 资源 类 型 4 和 2 个 资源 类 型 C， 这 样 Requesti1 = (1，0，2 )。 为 
了 确定 这 个 请 求 是 否 可 以 立即 允许 ， 首 先 检 测 Request! < Available ( 即 (1,0,2) < (3,3,2), 
其 值 为 真 。 接 着 假定 这 个 请 求 被 满足 ， 会 产生 如 下 新 状态 : 





Allocation Need Available 
ABC ABC “Mar 
Po 010 743 230 
Py 302 020 
P: 302 600 
P; 211 011 
P, 002 431 


我 们 应 确定 这 个 新 的 系统 状态 是 否 安全 。 为 此 ， 执 行 安全 算法 ， 并 找到 序列 《 P,P;， 
Ps, Po, Pr) 满足 安全 要 求 。 因 此 ， 我们 可 以 立即 允许 进程 Pi 的 这 个 请 求 。 

然而 ， 你 可 能 发 现 : 当 系统 处 于 这 一 状态 时 ， 不 能 允许 Ps 的 请 求 (3，3，0 )， 因 为 没 
有 这 人 么 多 资源 可 用 。 另 外 ， 也 不 能 允许 Po 的 请 求 (0，2，0 ) : 虽然 有 资源 可 用 ， 但 是 这 会 
导致 系统 处 于 非 安全 状态 。 

如 何 实现 银行 家 算法 ， 将 其 留 给 读者 作为 编程 练习 。 


7.6 ” 死 锁 检测 


如 果 一 个 系统 既 不 采用 死 锁 预 防 算法 也 不 采用 死 锁 避 免 算法 ， 那 么 死 锁 可 能 出 现 。 在 这 
种 环境 下 ， 系 统 可 以 提供 : 

。 一 个 用 来 检查 系统 状态 从 而 确定 是 否 出 现 死 锁 的 算法 ; 

e 一 个 用 来 从 死 锁 状态 中 恢复 的 算法 。 
在 下 面 的 讨论 中 ， 对 每 种 资源 类 型 只 有 单个 实例 和 每 种 资源 类 型 可 有 多 个 实例 的 这 两 种 
情况 ， 我 们 分 别 研究 这 两 个 要 求 。 不 过 ， 这 里 需要 注意 ， 检 测 并 恢复 的 方案 会 有 额外 开 
销 ， 这 些 不 但 包括 维护 所 需 信 息 和 执行 检测 算法 的 运行 开销 ， 而 且 也 包括 死 锁 恢复 引起 的 
损失 。 


7.6.1 每 种 资源 类 型 只 有 单个 实例 


如 果 所 有 资源 类 型 只 有 单个 实例 ,我们 可 以 定义 这 样 一 个 死 锁 检 测算 法 ， 该 算法 使 用 
了 资源 分 配 图 的 一 个 变形 ， 称 为 等 待 (wait-for) 图 。 从 资源 分 配 图 中 ， 删 除 所 有 资源 类 型 节 
点 ， 合 并 适当 边 ， 就 可 以 得 到 等 待 图 。 
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更 确切 地 说 ， 等 待 图 的 从 P BP Ra: 进程 Pi 等待 进程 P 释放 一 个 Pi 所 需 
的 资源 。 等 待 图 有 一 条 由 Pi 一 忆 的 边 ， 当 且 仅 当 相 应 资源 分 配 图 包含 两 条 边 Pi 一 Re 和 
R> P, HFR 为 资源 。 例 如 ， 图 7-9 为 一 个 资源 分 配 图 及 其 对 应 的 等 待 图 。 





a ) 资源 分 配 图 b ) 对 应 的 等 待 图 
图 7-9 
与 以 前 一 样 ， 当 且 仅 当 在 等 待 图 中 有 一 个 环 ， 系 统 死 锁 。 为 了 检测 死 锁 ， 系 统 需要 维 
护 等 待 图 ， 并 周期 调用 用 于 搜索 图 中 环 的 算法 。 从 图 中 检测 环 的 算法 需要 巡 数 量 级 的 操作 ， 
其 中 为 图 的 节点 数 。 


7.6.2 每 种 资源 类 型 可 有 多 个 实例 


等 待 图 方案 不 适用 于 每 种 资源 类 型 可 有 多 个 实例 的 资源 分 配 系统 。 下 面 描述 的 死 锁 检 
测算 法 适用 于 这 样 的 系统 。 该 算法 使 用 了 一 些 随 时 间 而 变化 的 数据 结构 ， 类 似 于 银行 家 算法 
(7.5.3 节 ) 的 : 

e Available: KEX m 的 向 量 ， 表示 各 种 资源 的 可 用 实例 数量 。 

e Allocation; n xm 矩阵， 表示 每 个 进程 的 每 种 资源 的 当前 分 配 数量 。 

e Request; 2x 玉 和 矩阵， 表示 当前 每 个 进程 的 每 种 资源 的 当前 请 求 。 如 果 Request[i][ 刀 = 

k， 那 么 Pi 现在 正在 请 求 资源 类 型 R 的 个 实例 。 

两 向 量 的 < 关系 与 7.5.3 节 定 义 的 一 样 。 为 了 简化 起 见 ， 将 Allocation 和 Request 的 行 
作为 向 量 ， 并 分 别称 为 Allocation; 和 Request;。 这 里 描述 的 检测 算法 为 需要 完成 的 所 有 进程 
探究 各 种 可 能 的 分 配 序列 。 请 将 本 算法 与 7.5.3 节 的 银行 家 算法 作 一 比较 。 

1. i Work 和 Finish 分 别 为 长 度 为 m 和 nn 的 向 量 。 初 始 化 Work = Available, Xt i= 0, 
l, =, n-1, WẸ Allocation; 不 为 0， 则 Finish[i] = false; 否则 ，Finish[i] = trues 

2. 找 这 样 的 i， 同时 满足 

a. Finish[i] == false 
b. Request; < Work 
如 果 没 有 这 样 的 i， 则 转 到 第 4 步 
3. Work = Work + Allocation; 
Finish[i] = true 
转 到 第 2 步 。 
4. 如 果 对 某 个 i(0 < i< n), Finish[i] == false， 则 系统 死 锁 。 而 且 ， 如 果 Finish[i] == 
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false， 则 进程 P; 死 锁 。 

该 算法 需要 m xm 数量 级 的 操作 ,来 检测 系统 是 否 处 于 死 锁 状态 。 

你 可 能 不 明白 为 什么 只 要 确定 Request; < Work (第 2 步 中 )， 就 收回 了 进程 Pj; 的 资源 
(第 3 步 )。 已 知 Pi 现在 不 参与 死 锁 ( 因 Request; < Work)， 因 此 ， 可 以 乐观 地 认为 P; 不 再 需 
要 更 多 资源 以 完成 任务 ， 它 会 返回 现 已 分 配 的 所 有 资源 。 如 果 这 个 假定 不 正确 ， 屠 么 稍 后 会 
发 生死 锁 。 下 次 调用 死 锁 检测 算法 时 ， 就 会 检测 到 死 锁 状态 。 

为 了 说 明 这 一 算法 ,假设 有 一 个 系统 ， 它 有 5 个 进程 Po 到 Py 和 3 个 资源 类 型 4、B 和 
C。 资 源 类 型 4 有 7 个 实例 ， 资 源 类 型 8 有 2 个 实例 ， 资 源 类 型 C 有 6 个 实例 。 假 定 在 时 间 
Tho 时， 有 如 下 资源 分 配 状 态 : 





Allocation Request Available 
ABC ABC ABC 
Po 010 000 000 
Pi 200 202 
Pı 303 000 
P, 211 100 
Ps 002 002 


我 们 断言 : 系统 现在 不 处 于 死 锁 状态 。 事 实 上， 如果 执行 检测 算法 ， 那 么 我 们 就 会 发 
WM: 这 样 一 个 序列 〈《 P。，，P;,，P;3，P!，P4 〉 导致 对 所 有 i, Finish[i] == true. 
现在 假定 进程 Pa 又 请 求 了 资源 类 型 C 的 一 个 实例 。 这 样 , Request 矩阵 修改 成 如 下 形式 : 


Request 

ABC 
Po 000 
Pi 202 
P, 001 
P; 100 
Pa 002 


我 们 断言 : 系统 现在 死 锁 。 虽 然 可 以 收回 进程 P 占有 的 资源 ， 但 是 现 有 资源 并 不 足以 
满足 其 他 进程 的 请 求 。 因 此 ， 进 程 P|、P，,、P3 和 Py 会 一 起 死 锁 。 


7.6.3 ”应 用 检测 算法 


何 时 应 该 调用 检测 算法 ?答案 取决 于 两 个 因素 。 

o 死 锁 可 能 发 生 的 频率 是 多 少 ? 

© 当 死 锁 发 生 时 ， 有 多 少 进程 会 受 影响 ? 
如 果 经 常 发 生死 锁 ， 就 应 经 常 调用 检测 算法 。 分 配给 死 锁 进程 的 资源 会 一 直 空 着 ， 直 到 死 锁 
被 打破 。 另 外 ， 参 与 死 锁 等 待 环 的 进程 数量 可 能 不 断 增加 。 

只 有 当 某 个 进程 提出 请 求 且 得 不 到 满足 时 ， 才 会 出 现 死 锁 。 这 一 请 求 可 能 是 完成 等 待 进 
程 链 的 最 后 请 求 。 在 极端 情况 下 ， 即 每 次 分 配 请 求 不 能 立即 允许 时 ， 就 调用 死 锁 检测 算法 。 
在 这 种 情况 下 ， 不 仅 能 确定 哪些 进程 死 锁 ， 而 且 能 确定 哪个 特定 进程 “造成 ”了 死 锁 。( 而 
实际 上 ， 每 个 死 锁 进 程 都 是 资源 图 内 环 的 一 个 链 节 ， 因 此 ， 所 有 进程 一 起 造成 了 死 锁 。) 如 
果 有 许多 不 同 资源 类 型 ， 那 么 一 个 请 求 可 能 形成 资源 图 的 多 个 环 ， 每 个 环 由 最 近 请 求 所 完成 
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且 由 可 确定 的 进程 所 “造成 ”。 

当然 ， 对 于 每 个 请 求 都 调用 死 锁 检 测算 法 将 会 引起 相当 的 计算 开销 。 另 一 个 不 太 昂贵 的 
方法 只 是 每 隔 一 定时 间 调 用 检测 算法 ， 如 每 小 时 一 次 ， 或 当 CPU 使 用 率 低 于 40% 时 。( 死 
锁 最 终 会 使 系统 性 能 下 降 ， 并 造成 CPU 使 用 率 下 降 。) 如 果 在 任 一 时 间 点 调用 检测 算法 ， 那 
么 资源 图 可 能 有 多 个 环 。 通 常 不 能 确定 哪个 死 锁 进程 “造成 ”了 死 锁 。 


7.7” 死 锁 恢复 


当 检 测算 法 确定 已 有 死 锁 时 ， 存 在 多 种 可 选 方案 。 一 种 可 能 是 ， 通 知 操作 员 死 锁 已 发 
Æ, 并 且 让 操作 员 人 工 处 理 死 锁 。 另 一 种 可 能 是 ， 让 系统 从 死 锁 状态 中 自动 恢复 (recover) 
过 来 。 打 破 死 锁 有 两 个 选择 。 一 个 是 ， 简 单 地 中 止 一 个 或 多 个 进程 来 打破 循环 等 待 。 另 一 个 
是 ， 从 一 个 或 多 个 死 锁 进程 那里 抢占 一 个 或 多 个 资源 。 


7.7.1 进程 终止 


通过 中 止 进程 来 消除 死 锁 ， 有 两 种 方法 。 这 两 种 方法 都 允许 系统 收回 终止 进程 的 所 有 分 
配 资源 。 
e 中 止 所 有 死 锁 进程 。 这 种 方法 显然 会 打破 死 锁 环 ， 但 是 代价 也 大 。 这 些 死 锁 进 程 可 
能 已 计算 了 较 长 时 间 ; 这 些 部 分 计算 的 结果 也 要 放弃 ， 并 且 以 后 可 能 还 要 重新 计算 。 
e 一 次 中 止 一 个 进程 ， 直 到 消除 死 锁 循环 为 止 。 这 种 方法 的 开销 会 相当 大 ， 这 是 因为 
每 次 中 止 一 个 进程 ， 都 应 调用 死 锁 检 测算 法 ， 以 确定 是 否 仍 有 进程 处 于 死 锁 。 
终止 一 个 进程 并 不 简单 。 如 果 进 程 正在 更 新 文件 ， 那 么 终止 它 会 使 文件 处 于 不 正确 的 状 
态 。 类 似 地 ， 如 果 进 程 正在 打印 数据 ， 那 么 系统 在 打印 下 一 个 文件 之 前 应 将 打印 机 重 置 到 正 
确 的 状态 。 
如 果 采 用 了 部 分 终止 ,那么 我 们 应 确定 哪个 (或 哪些 ) 死 锁 进程 应 该 终止 。 这 个 确定 ， 类 
似 于 CPU 调度 决策 ， 是 策略 决策 。 这 个 问题 基本 上 是 经 济 问题 ; 我 们 应 该 中 止 造 成 最 小 代价 ”B33] 
的 进程 。 然 而 最 小 代价 (minimum cost) 并 不 精确 。 许 多 因素 都 可 能 影响 选择 哪个 进程 ， 包 括 ; 
o 进程 的 优先 级 是 什么 ? 
o 进程 已 计算 了 多 久 ? 在 完成 指定 任务 之 前 还 要 计算 多 久 ? 
。 进程 使 用 了 多 少数 量 的 何 种 类 型 的 资源 (例如 ， 这 些 资 源 是 否 容易 抢占 ) ? 
。 进程 需要 多 少 资源 才能 完成 ? 
© 需要 终止 多 少 进程 ? 
o 进程 是 交互 的 还 是 批 处 理 的 ? 


7.7.2 资源 抢占 


通过 资源 抢占 来 消除 死 锁 ， 我 们 不 断 地 抢占 一 些 进程 的 资源 以 便 给 其 他 进程 使 用 ， 直 到 
死 锁 循环 被 打破 为 止 。 
如 果 要 求 采 用 抢占 来 处 理 死 锁 ， 那 么 需要 处 理 三 个 问题 : 
o 选择 牺牲 进程 : 抢占 哪些 资源 和 哪些 进程 ? 与 进程 终止 一 样 ， 应 确定 抢占 的 顺序 ， 使 
得 代价 最 小 。 代 价 因素 可 包括 这 样 的 参数 ， 如 死 锁 进 程 拥有 的 资源 数量 、 死 锁 进 程 
到 现在 为 止 所 消耗 的 时 间 等 。 
© BR: 如 果 从 一 个 进程 那里 抢占 了 一 个 资源 ， 那 么 应 对 该 进程 做 些 什么 安排 ” 显然 ， 
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该 进程 不 能 继续 正常 执行 ; 它 缺 少 所 需 的 某 些 资源 。 我 们 应 将 该 进程 回 深 到 某 个 安 
全 状态 ， 以 便 从 该 状态 重启 进程 。 
因为 一 般 来 说 ,很 难 确定 什么 是 安全 状态 ,最 简单 的 解决 方案 是 完全 回 深 : 中 
止 进程 并 重新 执行 。 然 而 ， 更 为 有 效 的 方法 是 回 滚 进程 直到 足够 打破 死 锁 ， 但 是 这 
种 方法 要 求 系统 维护 有 关 运 行进 程 的 更 多 状态 信息 。 
© MR: 如 何 确保 不 会 发 生 饥饿 ? 即 如 何 保证 资源 不 会 总 是 从 同一 个 进程 中 被 抢占 。 
如 果 一 个 系统 是 基于 代价 来 选择 牺牲 进程 ， 那 么 同一 进程 可 能 总 是 被 选 为 牺牲 
的 。 结 果 ， 这 个 进程 永远 不 能 完成 指定 任务 ， 任 何 实际 系统 都 需要 处 理 这 种 饥饿 情 
况 。 显 然 ， 应 确保 一 个 进程 只 能 有 限 次 数 地 被 选 为 牺牲 进程 。 最 为 常用 的 方法 是 在 
代价 因素 中 加 上 回 滚 次 数 。 


7.8 小 结 


如 果 两 个 或 更 多 进程 永久 等 待 某 个 事件 ， 而 且 该 事件 只 能 由 这 些 等 待 进程 的 某 一 个 引 
起 ， 那 么 就 出 现 了 死 锁 状态 。 从 原理 上 来 说 ， 处 理 死 锁 有 三 种 主要 方法 : 

© 采用 某 个 协议 来 预防 或 避免 死 锁 ， 确 保 系 统 将 永远 不 会 进入 死 锁 状 态 。 

© 人 允许 系统 进入 死 锁 状 态 ， 检 测 它 ， 然 后 恢复 。 

© 完全 忽略 这 个 问题 ， 并 假设 系统 永远 都 不 会 出 现 死 锁 。 

第 三 种 方法 为 大 多 数 系统 所 采用 ， 包 括 Linux 和 Windows. 

只 有 四 个 必要 条 件 ( 互 斥 、 持 有 和 且 等 待 、 无 抢占 和 循环 等 待 ) 在 系统 中 同时 成 立 ， 才 能 
出 现 死 锁 。 为 了 预防 死 锁 ， 可 以 确保 在 这 四 个 必要 条 件 中 至 少 有 一 个 不 能 成 立 。 

死 锁 避 免 算 法 ， 不 是 预防 死 锁 ， 要 求 操作 系统 拥有 每 个 进程 如 何 利用 系统 资源 的 先 验 信 
息 。 例 如 ， 银 行家 算法 需要 知道 每 个 进程 请 求 的 各 种 资源 的 最 大 数量 。 通 过 这 种 信息 ， 我 们 
可 以 定义 死 锁 避 免 算法 。 

如 果 不 采 用 协议 以 确保 死 锁 不 会 发 生 ， 那 么 也 可 以 使 用 检测 并 恢复 的 方案 。 应 调用 检测 
算法 ， 确 定 是 否 出 现 了 死 锁 。 如 果 检 测 到 死 锁 ， 那 么 系统 应 通过 终止 某 些 死 锁 进程 或 通过 抢 
占 某 些 死 锁 进 程 的 资源 来 恢复 。 

当 通过 抢占 来 处 理 死 锁 时 ， 应 考虑 三 个 问题 : 选择 一 个 牺牲 进程 、 回 滚 及 饥饿 。 如 果 系 
统 主要 根据 代价 来 选择 牺牲 进程 进行 回 深 ， 那 么 可 能 出 现 饥饿 ， 导 致 所 选 进 程 永 远 不 能 完成 
指定 任务 。 

研究 人 员 认 为 ,没有 单独 的 基本 方法 能 够 处 理 
操作 系统 资源 分 配 的 所 有 问题 。 然 而 ， 通 过 合并 基 
本 方法 ， 使 得 我 们 能 够 为 系统 中 的 每 一 类 资源 选择 
最 佳 方法 。 


习题 

7.1 考虑 如 图 7-10 所 示 的 交通 死 锁 。 
a. 证 明 这 个 例子 实际 包括 死 锁 发 生 的 4 个 必要 条 件 。 
b. 给 出 一 个 简单 规则 ， 以 便 避 免 系 统 死 锁 。 

7.2 ”假设 一 个 多 线程 应 用 程序 仅 使 用 读 写 锁 来 同步 。 如 
果 使 用 多 个 该 写 锁 ， 那 么 根据 死 锁 的 4 个 必要 条 件 ， 
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仍然 可 能 死 锁 ? 

图 7-4 所 示 的 示例 程序 并 不 总 能 导致 死 锁 。 请 描述 CPU 调度 程序 扮演 什么 角色 ， 以 及 如 何 做 才 

能 有 助 于 程序 的 死 锁 。 

7.4.4 节 描 述 了 一 种 情况 : 通过 确保 按 特定 顺序 获取 所 有 锁 来 防止 死 锁 。 然 而 ， 我们 还 指出 ,在 

这 种 情况 下 ， 如 果 有 两 个 线程 同时 调用 函数 transaction()， 那 么 可 能 发 生死 锁 。 修 改 函 数 

transaction() 来 防止 死 锁 。 

根据 如 下 两 点 ， 比 较 循 环 等 待 方法 与 各 种 死 锁 避免 方法 《如 银行 家 算法 ); 

a. 运行 时 开销 

b. 系统 吞吐 量 

对 于 一 个 真实 的 计算 机 系统 ， 可 用 的 资源 和 进程 的 资源 需求 都 不 会 长 入 〈 几 个 月 ) 不 变 的 。 资 源 会 损 

坏 和 和 替换， 新 的 进程 来 来 去 去 ， 新 的 资源 会 被 购买 并 加 到 系统 。 如 果 采 用 银行 家 算法 控制 死 锁 ， 那 

么 下 面 哪 些 变化 是 安全 的 (不 会 导致 死 锁 )， 以 及 在 什么 情况 下 ? 

a. 增加 Available (新 的 资源 被 加 到 系统 )。 

b. 减少 Available (资源 被 从 系统 中 永久 性 地 移出 )。 

c. 增加 一 个 进程 的 Max (进程 需要 的 资源 多 于 所 允许 的 )。 

d. 减少 一 个 进程 的 Max (进程 决定 不 再 需要 那么 多 资源 )。 

e. 增加 进程 的 数量 。 

f. 减少 进程 的 数量 。 

假设 一 个 系统 有 4 个 相同 类 型 的 资源 ， 并 由 3 个 进程 共享 。 每 个 进程 最 多 需要 2 个 资源 。 证 明 这 

个 系统 不 会 死 锁 。 

假设 一 个 系统 有 m 个 相同 类 型 的 资源 ， 并 由 n 个 进程 共享 。 每 个 进程 每 次 只 能 请 求 或 释放 一 个 资 

源 。 证 明 只 要 符合 下 面 的 两 个 条 件 ， 系 统 就 不 会 发 生死 锁 。 

a. 每 个 进程 需要 资源 的 最 大 数量 在 1 ~ m 之 间 。 

b. 所 有 进程 需要 资源 的 最 大 数量 的 总 和 小 于 m + n 

考虑 这 样 的 哲学 家 就 餐 问题 簧 子 放 在 桌子 中 央 ， 并 且 每 个 哲学 家 可 使 用 任意 两 根 饶 子 。 假 定 一 

次 只 能 请 求 一 根 簧 子 。 设 计 一 条 简单 规则 ， 根 据 现 有 筷子 的 分 配 来 确定 一 个 特定 请 求 是 否 可 以 满 

足 而 不 会 出 现 死 锁 。 
考虑 与 前 面 问题 同样 的 场景 。 现 在 假定 每 个 哲学 家 需要 三 根 簧 子 来 吃 。 请 求 资源 仍然 一 根 一 根 地 
进行 。 设 计 一 条 简单 规则 ， 根 据 现 有 和 包子 的 分 配 来 确定 一 个 特定 请 求 是 否 可 满足 而 不 会 出 现 死 锁 。 
当 数 组 的 维 数 减 1 时 ， 从 一 般 银行 家 算法 中 ， 容 易 得 到 只 针对 一 种 类 型 资源 的 银行 家 算法 。 通 
过 例子 来 说 明 ， 多 资源 类 型 的 银行 家 算法 方案 不 能 通过 对 每 种 资源 类 型 单独 地 应 用 单 种 资源 的 
银行 家 算法 来 实现 。 

假设 一 个 系统 具有 如 下 快照 ; 


Allocation Max 

ABCD ABCD 
Po 3014 S117 
P, 2210 3211 
Pi 312i ces at 
P; 0510 4612 
Pi 4212 6325 
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采用 银行 家 算法 ， 确 定 如 下 每 个 状态 是 否 安全 的 。 如 果 状 态 是 安全 的 ， 那 么 说 明 进 程 可 以 完成 
的 顺序 。 和 否则 ， 说 明 为 什么 状态 是 不 安全 的 。 
a. Available= (0, 3, 0, 1) 
b. Available = (1, 0, 0, 2) 
713 ”假设 一 个 系统 具有 如 下 的 快照 : 


Allocation Max Available 
ABCD ABCD ABCD 
Po 2001 4212 3.321 
Pi 3121 5252 
Pz BAGS 2316 
P; 13432 1424 
Pa 1432 3665 


采用 银行 家 算法 ， 回 答 下 面 的 问题 : 
a. 通过 进程 可 以 完成 执行 的 顺序 ， 说 明 系统 处 于 安全 状态 。 
b. 当 进 程 Pi 的 请 求 为 (1，1，0，0 ) 时 ， 能 否 立 即 允 许 这 一 请 求 ? 
c. 当 进 程 Py 的 请 求 为 (0，0，2，0 ) 时 ， 能 香 立 即 允 许 这 一 请 求 ? 

7.14” 死 锁 检 测算 法 的 乐观 假设 是 什么 ?” 如何 违反 这 个 假设 ? 

7.15 有 一 个 单行 道 的 桥 ， 连 接 两 个 Vermont HE: 北 Tunbridge 和 南 Tunbridge。 这 两 个 村 庄 的 农 
场 主 通 过 这 个 桥 ， 将 收成 送 到 附近 城镇 。 如 果 北 Tunbridge 和 南 Tunbridge 的 农场 主 同 时 使 用 
这 个 桥 ， 那 么 就 会 死 锁 ( Vermont KAERRA, KERE) RAAS, 设计 一 个 算法 
以 防止 死 锁 。 开 始 时 ， 不必 考虑 饥饿 (如 向 北 的 农场 主 使 用 桥 而 不 让 向 南 的 农场 主 使 用 ,或 
相反 )。 

7.16 ”修改 习题 7.15 的 解决 方案 ， 以 便 没有 饥饿 。 


编程 题 
7.17 采用 POSIX 同步 ,实现 习题 7.15 的 解决 方案 。 特 别 地 ， 利 用 单独 线程 代表 向 北 和 向 南 的 农场 


主 。 一 旦 农场 主 在 桥 上 ， 相 关 线 程 将 睡眠 一 段 随 机 时 间 ， 以 代表 穿越 桥 粱 。 设 计 程 序 ， 以 便 创 
建 多 个 线程 代表 向 北 和 向 南 的 农场 主 。 


编程 项 目 
银行 家 算法 

对 这 个 项 目 ， 你 将 编写 一 个 多 线程 程序 来 实现 银行 家 算法 ( 见 7.5.3 节 )。 多 个 客户 请 求 和 释放 银 
行 资源 。 只 有 仍 能 使 系统 处 于 安全 状态 ， 银 行家 才 会 允许 请 求 。 会 让 系统 处 于 非 安全 状态 的 请 求 将 被 
拒绝 。 这 个 编程 作业 包含 三 个 单独 主题 ， 多 线程 、 防 止 竞 态 条 件 以 及 死 锁 避免。 
银行 家 ; 

PATRIA n PEPI m 个 资源 类 型 的 请 求 ， 如 7.5.3 节 所 述 。 银 行家 将 使 用 以 下 数据 结构 
来 跟踪 资源 : 


/* these may be any values >= 0 */ 
#define NUMBER_OF_CUSTOMERS 5 


7# 死 $e 231 


#define NUMBER, OF RESOURCES 3 


/* the available amount of each resource */ 
int available [NUMBER_OF_RESOURCES]; 


/*the maximum demand of each customer */ 
int maximum [NUMBER OF CUSTOMERS] [NUMBER OF RESOURCES] ; 


/* the amount currently allocated to each customer */ 
int allocation [NUMBER_OF CUSTOMERS] [NUMBER_OF RESOURCES] ; 


/* the remaining need of each customer */ 
int need [NUMBER_OF CUSTOMERS] [NUMBER_OF RESOURCES] ; 


客户 

创建 n 个 客户 线程 ， 以 便 请 求 和 释放 银行 资源 。 客 户 不 断 地 循环 ， 请 求 再 释放 随机 数量 的 资源 。 
客户 的 资源 请 求 不 超过 它们 的 数组 need 的 相应 值 。 如 果 一 个 请 求 满足 7.5.3.1 节 所 述 的 安全 算法 ， 那 
么 银行 家 就 允许 它 。 如 果 一 个 请 求 不 能 将 系统 保持 在 安全 状态 ， 那 么 银行 家 将 拒绝 它 。 请 求 与 释放 资 
源 的 函数 原型 如 下 : 

int request resources(int customer num, int request[]); 


int release resources(int customer num, int release[]); 


这 两 个 函数 在 成 功 (请求 能 满足 ) 时 返回 0; 在 失败 时 返回 -1。 通 过 这 两 个 函数 ， 多 线程 (客户 ) 会 并 
发 访问 共享 数据 。 因 此 ， 可 采用 互 斥 锁 来 控制 访问 ， 以 便 防 止 竞争 条 件 。Pthreads 和 Windows API 都 
提供 互 斥 锁 。Pthreads 互 斥 锁 的 使 用 见 6.9.4 节 ; Windows 系统 的 互 斥 锁 见 第 6 章 结尾 的 “生产 者 - 消 
费 者 问题 ”的 项 目 。 
实现 

在 调用 你 的 程序 时 ， 通 过 命令 行 可 以 传递 每 个 资源 的 数量 。 例 如 ， 如 果 有 3 种 资源 类 型 ， 第 一 种 
类 型 有 10 个 实例 ， 第 二 种 类 型 有 5 个 实例 ， 第 三 种 类 型 有 7 个 实例 ， 你 可 这 样 调用 程序 : 


./a.out 10 5 7 


数组 available 会 利用 这 些 值 来 初始 化 。 对 于 数组 maximum (用 于 保存 每 个 客户 的 最 大 需求 ) 的 初始 
化 可 以 采用 任何 你 认为 方便 的 方法 。 


推荐 读物 


大 多 数 有 关 死 锁 的 研究 是 在 早年 进行 的 。Dijkstra 是 死 锁 领域 中 最 早 和 最 有 影响 的 贡献 者 Dijkstra 
(1965 )。Holt 是 将 死 锁 问题 用 分 配 图 模型 来 形式 化 的 第 一 人 Holt ( 1972 )。Holt (1972) 也 讨论 了 饥饿。 
Hyman ( 1985 ) 给 出 了 Kansas 立法 机 构 的 死 锁 例子 。Levine (2003 ) 给 出 有 关 死 锁 处 理 方面 的 研究 。 

Havender 提出 了 各 种 死 锁 防 止 算 法 ， 并 为 IBM OS/360 系统 设计 了 资源 排序 方案 ， 参 见 Havender 
(1968 )。Dijkstra (1965 ) 提出 了 单个 资源 类 型 的 死 锁 避免 的 银行 家 算法 ; Habermann ( 1969 ) 将 其 扩 
展 到 多 个 资源 类 型 的 情况 。 

Coffman 等 (1971 ) 给 出 了 有 关 多 个 资源 实例 的 死 锁 检测 算法 ， 见 7.6.2 节 。 

Bach (1987) 讨论 了 传统 UNIX 内 核 如 何 处 理 死 锁 。Culler 等 (1998) 以 及 Rodeheffer 和 
Schroeder ( 1991 ) 等 讨论 了 网 络 中 死 锁 问题 的 解决 方案 。 

Baldwin (2002 ) 讨论 了 加 锁 顺 序 验证 器 witness。 
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Operating System Concepts, Ninth Edition 


内 存 管理 





计算 机 系统 的 主要 目的 是 执行 程序 。 在 执行 时 ， 这 些 程序 及 其 访问 
数据 应 该 至 少 部 分 在 内 存 里 。 

为 了 提高 CPU 的 利用 率 和 响应 用 户 的 速度 ， 通 用 计算 机 在 内 存 里 
必须 保留 多 个 进程 。 内 存 管 理 方案 有 很 多 ， 采 用 的 方法 也 不 同 ; 每 个 算 
法 的 有 效 性 取决 于 特定 情况 。 系 统 内 存 管理 方案 的 选择 取决 于 很 多 因素 ， 
特别 是 系统 的 硬件 设计 。 大 多 数 算法 都 需要 硬件 支持 。 


第 8 章 | 


Operating System Concepts, Ninth Edition 


内 存 管理 策略 





在 第 5 章 ， 我 们 讨论 了 一 组 进程 如 何 共享 一 个 CPU。 正 是 由 于 CPU 调度 ， 我 们 可 以 提 
高 CPU 的 利用 率 和 计算 机 响应 用 户 的 速度 。 然 而 ， 为 了 实现 性 能 的 改进 ， 应 将 多 个 进程 保 
存在 内 存 中 ; 也 就 是 说 ， 必 须 共享 内 存 。 

本 章 讨论 内 存 管理 的 各 种 方法 。 内 存 管理 算法 有 很 多 : 从 原始 的 裸 机 方法 ， 到 分 页 和 
分 段 的 方法 。 每 种 方法 都 有 各 自 的 优点 和 缺点 。 为 特定 系统 选择 内 存 管 理 方法 取决 于 很 多 因 
素 ， 特 别 是 系统 的 硬件 设计 。 正 如 将 会 看 到 的 ， 许 多 算法 都 需要 硬件 支持 ， 导 致 许多 操作 系 
统 内 存 管理 与 系统 硬件 的 紧密 结合 。 

本 章 目标 

o 详细 描述 内 存 硬件 的 各 种 组 织 方法 。 

o 探讨 进程 内 存 分 配 的 各 种 技术 。 

© 详细 讨论 现代 计算 机 系统 的 分 页 如 何 工作 。 


8.1 背景 


正如 第 1 章 所 述 ， 内 存 是 现代 计算 机 运行 的 核心 。 内 存 由 一 个 很 大 的 字 节 数组 来 组 成 ， 
每 个 字 节 都 有 各 自 的 地 址 。CPU 根据 程序 计数 器 的 值 从 内 存 中 提取 指令 ， 这 些 指令 可 能 引 
起 对 特定 内 存 地 址 的 额外 加 载 与 存储 。 

例如 ， 一 个 典型 的 指令 执行 周期 ， 首 先 从 内 存 中 读 取 指 令 。 接 着 ， 该 指令 会 被 解码 ， 也 
可 能 需要 从 内 存 中 读 取 操作 数 。 在 指令 对 操作 数 执行 后 ， 它 的 结果 可 能 存 回 到 内 存 。 内 存单 
元 只 看 到 地 址 流 ， 而 并 不 知道 这 些 地 址 是 如 何 产生 的 〈 由 指令 计数 器 、 索 引 、 间 接 寻 址 、 常 
量 地 址 等 ) 或 它们 是 什么 〈 指 令 或 数据 ) 的 地 址 。 相 应 地 ， 我 们 可 以 忽略 内 存 地 址 是 如 何 由 
程序 产生 的 ， 而 只 是 对 运行 程序 产生 的 内 存 地 址 序列 感 兴趣 。 

首先 ， 我 们 讨论 与 内 存 管 理 技术 有 关 的 几 个 问题 ， 包 括 基本 硬件 、 符 号 内 存 地 址 绑 定 到 
实际 物理 地 址 及 逻辑 地 址 与 物理 地 址 的 差别 等 。 最 后 ， 我 们 讨论 动态 链接 与 共享 库 。 


8.1.1 基本 硬件 


CPU 可 以 直接 访问 的 通用 存储 只 有 内 存 和 处 理 器 内 置 的 寄存 器 。 机 器 指令 可 以 用 内 存 
地 址 作为 参数 ， 而 不 能 用 磁盘 地 址 作为 参数 。 因 此 ， 执 行 指令 以 及 指令 使 用 的 数据 ， 应 处 在 
这 些 可 直接 访问 的 存储 设备 上 。 如 果 数 据 不 在 内 存 中 , 那么 在 CPU 使 用 它们 之 前 应 先 把 数 
据 移 到 内 存 。 

CPU 内 置 寄 存 器 通常 可 以 在 一 个 CPU 时 钟 周期 内 完成 访问 。 对 于 寄存 器 的 内 容 ， 大 多 
数 CPU 可 以 在 一 个 时 钟 周 期 内 解释 并 执行 一 条 或 多 条 指令 。 而 对 于 内 存 ( 它 可 通过 内 存 总 
线 的 事务 来 访问 )， 就 不 行 了 。 完 成 内 存 的 访问 可 能 需要 多 个 CPU 时 钟 周期 。 在 这 种 情况 
下 ， 由 于 没有 数据 以 便 完 成 正在 执行 的 指令 ，CPU 通常 需要 暂停 ( stall)。 由 于 内 存 访问 的 
频繁 ， 这 种 情况 是 无 法 容忍 的 。 补 救 措施 是 在 CPU 与 内 存 之 间 ， 通 常 是 在 CPU 芯片 上 ， 增 
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加 更 快 的 内 存 ; 这 称 为 高 速 缓存 (cache)， 参 见 1.8.3 节 。 为 管理 CPU 内 置 的 缓存 ， 硬 件 自 
动 加 快 内 存 访问 ， 无 需 任何 操作 系统 的 控制 。 

我 们 不 仅 关心 访问 物理 内 存 的 相对 速度 ， 而 且 还 要 确保 操作 的 正确 。 为 了 系统 操作 的 正 
确 ， 我 们 应 保护 操作 系统 ， 而 不 被 用 户 进程 访问 。 在 多 用 户 系统 上 ， 我 们 还 应 保护 用 户 进程 
不 会 互相 影响 。 这 种 保护 应 通过 硬件 来 实现 ， 因 为 操作 系统 通常 不 干预 CPU 对 内 存 的 访问 
(由 于 导致 性 能 损失 )。 硬 件 实现 具有 多 种 不 同方 式 ， 在 本 章 会 讨论 这 些 。 这 里 ， 我 们 简 述 一 
种 可 能 的 实现 。 

首先 ， 我 们 需要 确保 每 个 进程 都 有 一 个 单独 的 内 存 空间 。 单 独 的 进程 内 存 空 间 可 以 保护 
进程 而 不 互相 影响 ， 这 对 于 将 多 个 进程 加 到 内 存 以 便 并 发 执行 来 说 至 关 重 要 。 为 了 分 开 内 存 
空间 ， 我 们 需要 能 够 确定 一 个 进程 可 以 访问 的 合法 地 址 的 范围 ;， 并 且 确 保 该 进程 只 能 访问 这 
些 合法 地 址 。 通 过 两 个 寄存 器 ， 通 常 为 基地 址 和 界限 地 址 ， 
如 图 8-1 所 示 ， 我 们 可 以 提供 这 种 保护 。 基 地 址 寄存 器 
(base register) 含有 最 小 的 合法 的 物理 内 存 地 址 ， 而 界限 地 
址 寄存 器 (limit register) 指定 了 范围 的 大 小 。 例 如 ， 如 果 
基地 址 寄存 器 为 300040 而 界限 寄存 器 为 120900， 那 么 程 
序 可 以 合法 访问 从 300040 到 420939 ( 含 ) 的 所 有 地 址 。 

内 存 空间 保护 的 实现 是 通过 CPU 硬件 对 在 用 户 模式 下 
产生 的 地 址 与 寄存 器 的 地 址 进行 比较 来 完成 的 。 当 在 用 户 
模式 下 执行 的 程序 试图 访问 操作 系统 内 存 或 其 他 用 户 内 存 
时 ,会 陷入 操作 系统 ， 而 操作 系统 则 将 它 作 为 致命 错误 来 
处 理 (图 8-2 )。 这 种 方案 防止 用 户 程序 无 意 或 故意 修改 操 
作 系 统 或 其 他 用 户 的 代码 或 数据 结构 。 

只 有 操作 系统 可 以 通过 特殊 的 特权 指令 ， 才 能 加 载 基 
地 址 寄存 器 和 界限 地 址 寄存 器 。 由 于 特权 指令 只 能 在 内 核 模式 下 执行 ， 而 只 有 操作 系统 才能 
在 内 核 模式 下 执行 ， 所 以 只 有 操作 系统 可 以 加 载 基 地 址 寄存 器 和 界限 地 址 寄存 器 。 这 种 方案 
允许 操作 系统 修改 这 两 个 寄存 器 的 值 ， 而 不 允许 用 户 程序 修改 它们 。 





寄存 器 定义 逻辑 地 址 空间 





由 于 寻 址 错误 陷 到 操作 系统 监视 器 
图 8-2 ”采用 基地 址 寄存 器 和 界限 地 址 寄存 器 的 硬件 地 址 保护 


在 内 核 模式 下 执行 的 操作 系统 可 以 无 限制 地 访问 操作 系统 及 用 户 的 内 存 。 这 项 规定 允许 
操作 系统 : 加载 用 户 程序 到 用 户 内 存 ， 转 储 出 现 错误 的 程序 ， 访 问 和 修改 系统 调用 的 参数 ， 执 
行 用 户 内 存 的 VO， 以 及 提供 许多 其 他 服务 等 。 例 如 ， 多 任务 系统 的 操作 系统 在 进行 上 下 文 切 
换 时 ， 应 将 一 个 进程 的 寄存 器 的 状态 存 到 内 存 ， 再 从 内 存 中 调 入 下 个 进程 的 上 下 文 到 寄存 器 。 
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8.1.2 ”地址 绑 定 


通常 ， 程 序 作为 二 进 制 的 可 执行 文件 ， 存 放 在 磁盘 上 。 为 了 执行 ,程序 应 被 调和 内存， 
并 放 在 进程 中 。 根 据 采 用 的 内 存 管理 ， 进 程 在 执行 时 可 以 在 磁盘 和 内 存 之 间 移 动 。 在 磁盘 上 
等 待 调 到 内 存 以 便 执 行 的 进程 形成 了 输入 队列 (input queue) 。 

正常 的 单 任务 处 理 过 程 是 : 从 输入 队列 中 选取 一 个 进程 并 加 载 到 内 存 ; 进程 在 执行 时 ， 
会 访问 内 存 的 指令 和 数据 ; 最 后 ， 进 程 终止 时 ， 它 的 内 存 空间 将 会 释放 。 

大 多 数 系统 允许 用 户 进程 放 在 物理 内 存 中 的 
任意 位 置 。 因 此 ， 虽 然 计 算 机 的 地 址 空间 从 00000 
开始 ， 但 用 户 进程 的 开始 地 址 不 必 也 是 00000。 以 
后 你 会 看 到 ， 如 何 将 进程 存放 在 物理 内 存 中 。 

在 大 多 数 情况 下 ， 用 户 程序 在 执行 前 ， 需 要 经 
过 好 几 个 步 又， 其 中 有 的 是 可 选 的 (参见 图 8-3 )。 
在 这 些 步 又 中 ， 地 址 可 能 会 有 不 同 表 示 形 式 。 源 
程序 中 的 地 址 通常 是 用 符号 表示 (如 变量 count), 
编译 器 通常 将 这 些 符号 地 址 绑 定 (bind) 到 可 重 定 
位 的 地 址 (如 “从 本 模块 开始 的 第 14 字 节 ”) 。 链 
接 程 序 或 加 载 程序 再 将 这 些 可 重 定 位 的 地 址 绑 定 
到 绝对 地 址 (如 74014 )。 每 次 绑 定 都 是 从 一 个 地 
址 空间 到 另 一 个 地 址 空间 的 映射 。 

通常 ， 指 令 和 数据 绑 定 到 存储 器 地 址 可 在 沿 
途 的 任何 一 步 中 进行 : 

e 编译 时 (compile time): 如 果 在 编译 时 就 
已 知道 进程 将 在 内 存 中 的 驻 留 地 址 ， 那 么 
就 可 以 生成 绝对 代码 (absolute code)。 例 
如 ， 如 果 事 先 就 知道 用 户 进程 驻 留 在 内 存 
地 址 R 处 ， 那 么 生成 的 编译 代码 就 可 以 | 
从 该 位 置 开 始 并 向 后 延伸 。 如 果 将 来 开始 ( 运行 时 间 ) 
地 址 发 生变 化 ， 那 么 就 有 必要 重新 编译 代 i 
3o MS-DOS 的 .COM 格式 的 程序 就 是 在 图 8-3 一 个 用 户 程序 的 多 步骤 处 理 
编译 时 绑 定 成 绝对 代码 的 。 

加 载 时 (load time): 如 果 在 编译 时 并 不 知道 进程 将 驻 留 在 何 处 ， 那 么 编译 器 就 应 生 
ACR] BEA (relocatable code)。 对 这 种 情况 ， 最 后 绑 定 会 延迟 到 加 载 时 才 进 行 。 
如 果 开 始 地 址 发 生变 化 ， 那 么 只 需 重新 加 载 用 户 代码 以 合并 更 改 的 值 。 

执行 时 (runtime time): 如 果 进 程 在 执行 时 可 以 从 一 个 内 存 段 移 到 男 一 个 内 存 段 ， 那 
么 绑 定 应 延迟 到 执行 时 才 进 行 。 正 如 8.1.3 WER, 采用 这 种 方案 需要 特定 硬件 才 
行 。 大 多 数 的 通用 计算 机 操作 系统 采用 这 种 方法 。 

本 章 主要 讨论 如 何在 计算 机 系统 中 有 效 实现 这 些 绑 定 ， 以 及 适当 的 硬件 支持 。 


8.1.3 ”逻辑 地 址 室 间 与 物理 地 址 空间 
CPU 生成 的 地 址 通常 称 为 逻辑 地 址 (logical address)， 而 内 存单 元 看 到 的 地 址 ( 即 加 载 


| 


加 载 时 间 
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到 内 存 地 址 寄存 器 (memory-address register) 的 地 址 ) 通常 称 为 物理 地 址 (physical address). 

编译 时 和 加 载 时 的 地 址 绑 定 方法 生成 相同 的 逻辑 地 址 和 物理 地 址 。 然 而 ， 执 行 时 的 地 址 
绑 定 方案 生成 不 同 的 逻辑 地 址 和 物理 地 址 。 在 这 种 情况 下 ,我 们 通常 称 逻 辑 地 址 为 虚拟 地 址 
( virtual address) 。 在 本 书 中 ， 我 们 对 远 辑 地 址 和 虚拟 地 址 不 加 区 别 。 由 程序 所 生成 的 所 有 逮 
辑 地 址 的 集合 称 为 逻辑 地 址 空间 (logical address space)， 这 些 逻 辑 地 址 对 应 的 所 有 物理 地 址 
的 集合 称 为 物理 地 址 空间 (physical address space)。 因 此 ， 对 于 执行 时 地 址 绑 定 方案 ， 逻 辑 
地 址 空间 与 物理 地 址 空间 是 不 同 的 。 

从 虚拟 地 址 到 物理 地 址 的 运行 时 映射 是 由 内 存 管理 单元 ( Memory-Management Unit, 
MMU) 的 硬件 设备 来 完成 。 正 如 8.3 ~ 8.5 节 将 要 讨论 的 ， 有 许多 可 选 方法 来 完成 这 种 映 
射 。 在 此 ， 用 一 个 简单 的 MMU 方案 来 实现 这 种 映射 ， 这 是 8.1.1 节 所 述 的 基地 址 寄存 器 方 
案 的 推广 。 基 地 址 寄存 器 这 里 称 为 重 定位 寄 
存 器 (relocation register) 。 用 户 进 程 所 生成 
的 地 址 在 送 交 内 存 之 前 ， 都 将 加 上 重 定位 寄 
存 器 的 值 ( 如 图 8-4 所 示 )。 例 如 ， 如 果 基 地 
址 为 14000， 那 么 用 户 对 位 置 0 的 访问 将 动 
态 地 重 定位 为 位 置 14000 ; 对 地 址 346 的 访 
问 将 映射 为 位 置 14346。 ‘Cpu | 

用 户 程序 不 会 看 到 真实 的 物理 地 址 。 程 fi pane Ri 
序 可 以 创建 一 个 指向 位 置 346 的 指针 ， 将 它 
保存 在 内 存 中 ， 使 用 它 ， 将 它 与 其 他 地 址 进 
行 比较 等 ， 所 有 这 些 都 是 通过 346 这 样 一 个 AAC 
数字 来 进行 。 只 有 当 它 作为 内 存 地 址 时 (Al 图 8-4 使 用 重 定位 寄存 器 的 动态 重 定位 
如 ， 在 间接 加 载 和 保存 时 )， 它 才 会 相对 于 基 
地 址 寄存 器 进行 重 定位 。 用 户 程 序 处 理 逻 辑 地 址 ; 内 存 映射 硬件 将 逻辑 地 址 转变 为 物理 地 
址 。 这 种 形式 的 运行 时 绑 定 已 在 8.1.2 节 中 讨论 过 。 所 引用 的 内 存 地 址 只 有 在 引用 时 才 最 后 
定位 。 

我 们 现在 有 两 种 不 同类 型 的 地 址 : 逻辑 地 址 (范围 为 0 ~ max) 和 物理 地 址 (范围 为 
R+0 一 R+max， 其 中 及 为 基地 址 的 值 )。 用 户 只 生成 逻辑 地 址 ， 且 以 为 进程 的 地 址 空间 为 
0 一 max。 然 而 ， 这 些 逻 辑 地 址 在 使 用 之 前 应 映射 到 物理 地 址 。 逻 辑 地 址 空间 绑 定 到 另 一 单 
独 物理 地 址 空间 的 这 一 概念 对 内 存 的 管理 至 关 重 要 。 


8.1.4 动态 加 载 


在 迄今 为 止 的 讨论 中 ， 一 个 进程 的 整个 程序 和 所 有 数据 都 应 在 物理 内 存 中 ， 以 便 执 行 。 
因此 ， 进 程 的 大 小 受 限 于 内 存 的 大 小 。 为 了 获得 更 好 的 内 存 空间 利用 率 ， 可 以 使 用 动态 加 
$t (dynamic loading)。 采 用 动态 加 载 时 ， 一 个 程序 只 有 在 调用 时 才 会 加 载 。 所 有 程序 都 以 
可 重 定位 加 载 格式 保存 在 磁盘 上 。 主 程序 被 加 载 到 内 存 ， 并 执行 。 当 一 个 程序 需要 调用 另 一 
个 程序 时 ， 调 用 程序 首先 检查 另 一 个 程序 是 否 已 加 载 。 如 果 没 有 ， 可 重 定位 链接 程序 会 加 
载 所 需 的 程序 到 内 存 ， 并 更 新 程序 的 地 址 表 以 反映 这 一 变化 。 接 着 ， 控 制 传递 给 新 加 载 的 
程序 。 

动态 加 载 的 优点 是 ， 只 有 一 个 程序 被 需要 时 ， 它 才 会 被 加 载 。 当 大 多 数 代码 需要 用 来 处 
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理 异 常情 况 时 ， 如 错误 处 理 ， 这 种 方法 特别 有 用 。 在 这 种 情况 下 ， 虽 然 整个 程序 可 能 很 大 ， 
但 是 所 用 的 《和 加 载 的 ) 部 分 可 能 很 小 。 

动态 加 载 不 需要 操作 系统 提供 特别 支持 。 用 户 的 责任 是 ， 设 计 他 们 的 程序 利用 这 种 方法 
的 优点 。 然 而 ， 操 作 系 统 可 以 通过 实现 动态 加 载 的 程序 库 来 帮助 程序 员 。 


8.15 动态 链接 与 共享 库 


动态 链接 库 (dynamically linked library) 为 系统 库 ， 可 链接 到 用 户 程序 ， 以 便 运行 ( 参 
见 图 8-3 )。 有 的 操作 系统 只 支持 静态 链接 ( static linking)， 它 的 系统 库 与 其 他 目标 模块 一 
样 ， 通 过 加 载 程序 ， 被 合并 到 二 进 制 程序 映像 。 动 态 链接 类 似 于 动态 加 载 。 这 里 ， 不 是 加 载 
而 是 链接 ， 会 延迟 到 运行 时 。 这 种 功能 通常 用 于 系统 库 ， 如 语言 的 子 程序 库 。 没 有 这 种 功 
能 ， 系 统 内 的 所 有 程序 都 需要 一 份 语 言 库 的 副本 (或 至 少 那些 被 程序 所 引用 的 子 程序 )。 这 
种 要 求 浪 费 了 磁盘 空间 和 内 存 空 间 。 

如 果 有 动态 链接 ， 在 二 进 制 映像 内 ， 每 个 库 程 序 的 引用 都 有 一 个 存根 (stub )。 存 根 是 一 
小 段 代 码 ， 用 来 指出 如 何 定位 适当 的 内 存 驻 留 库 程 序 ， 或 者 在 程序 不 在 内 存 内 时 应 如 何 加 载 
库 。 当 执行 存根 时 ， 它 首先 检查 所 需 程序 是 否 已 在 内 存 中 。 如 果 不 在 ， 就 将 程序 加 到 内 存 。 
不 管 如 何 ， 存 根 会 用 程序 地 址 来 替换 自己 ， 并 开始 执行 程序 。 因 此 ， 下 次 再 执行 该 程序 代码 
时 ， 就 可 以 直接 进行 ， 而 不 会 因 动 态 链接 产生 任何 开销 。 采 用 这 种 方案 ， 使 用 语言 库 的 所 有 
进程 只 需要 一 个 库 代 码 副 本 就 可 以 了 。 

动态 链接 也 可 用 于 库 的 更 新 (如 修改 bug)。 一 个 库 可 以 被 新 的 版 本 所 替代 ， 而 且 使 用 

351] 该 库 的 所 有 程序 会 自动 使 用 新 的 版 本 。 没 有 动态 链接 ， 所 有 这 些 程序 应 当 重 新 链接 以 便 访问 
新 的 库 。 为 了 不 让 程序 意外 执行 新 的 、 不 兼容 版 本 的 库 ， 版 本 信息 包括 在 程序 和 库 中 。 一 个 
库 的 多 个 版 本 可 以 都 加 载 到 内 存 ， 程 序 将 通过 版 本 信息 来 确定 使 用 哪个 库 的 副本 。 次 要 更 改 
保留 相同 的 版 本 号 ， 而 主要 更 改 增加 版 本 号 。 因 此 ， 只 有 采用 新 库 编 译 的 程序 才 会 受 新 库 的 
不 兼容 改动 的 影响 。 在 新 库 安 装 之 前 链接 的 其 他 程序 将 继续 使 用 较 旧 的 库 。 这 种 系统 也 称 为 
共享 库 (shared library). 

与 动态 加 载 不 同 ， 动 态 链 接 通 常 需要 操作 系统 的 帮助 。 如 果 内 存 中 的 进程 是 彼此 保护 
的 ， 那么 只 有 操作 系统 才 可 以 检查 所 需 程序 是 否 在 某 个 进程 的 内 存 空 间 内 ,或 是 允许 多 个 进 
程 访问 同样 的 内 存 地 址 。 在 8.5.4 节 讨 论 分 页 时 ,我们 将 更 详细 地 阐述 这 个 概念 。 


8.2 ”交换 

进程 必须 在 内 存 中 以 便 执行 。 不 过 ， 进 
程 可 以 暂时 从 内 存 交 换 ( swap) 到 备份 存储 
( backing store)， 当 再 次 执行 时 再 调 回 到 内 存 
中 (图 8-5 )。 交 换 有 可 能 让 所 有 进程 的 总 的 
物理 地 址 空间 超过 真实 系统 的 物理 地 址 空间 ， 
从 而 增加 了 系统 的 多 道 程序 程度 。 


8.2.1 标准 交换 


标准 交换 在 内 存 与 备份 存储 之 间 移 动 进 
程 。 备 份 存储 通常 是 快速 磁盘 。 它 应 足够 大 ， 图 8-5 ”使 用 磁盘 作为 存储 仓库 的 两 个 进程 的 交换 
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以 容纳 所 有 用 户 的 所 有 内 存 映像 的 副本 ; 并 且 它 应 提供 对 这 些 存储 器 映像 的 直接 访问 。 系 
统 维护 一 个 可 运行 的 所 有 进程 的 就 绪 队 列 (ready queue)， 它 们 的 映像 在 备份 存储 或 内 存 中 。 
当 CPU 调度 器 决定 要 执行 一 个 进程 时 ， 它 调用 分 派 器 。 分 派 器 检查 队列 中 的 下 一 个 进程 是 
否 在 内 存 中 。 如 果 不 在 ， 并 且 没 有 空闲 内 存 区 域 ， 那 么 分 派 器 会 换 出 (swap out) 当前 位 于 
内 存 中 的 一 个 进程 ， 并 换 入 〈swap in) 所 需 进 程 。 然 后 ， 重 新 加 载 寄存 器 ， 并 且 将 控制 权 转 
移 到 所 选 进程 。 

这 种 交换 系统 的 上 下 文 切 换 时 间 相 当 高 。 为 了 理 确 上 下 文 切 换 时 间 的 概念 ， 假 设 用 户 进 
程 的 大 小 为 100MB ， 并 且 备 份 存 储 是 传输 速度 为 50MB/s 的 标准 硬盘 。100MB 进程 传人 或 
传 出 内 存 的 时 间 为 

100MB/SOMBps = 2s 

交换 时 间 为 2000ms。 由 于 我 们 应 换 出 和 换 人 ， 总 的 交换 时 间 约 为 4000 毫秒 。( 这 里 ， 
我 们 忽略 其 他 的 磁盘 性 能 问题 ， 参 见 第 12 章 。) 

请 注意 ， 交 换 时 间 的 主要 部 分 是 传输 时 间 。 总 的 传输 时 间 与 交换 的 内 存 大 小 成 正比 。 如 
果 我 们 有 这 样 一 个 计算 机 系统 ， 它 的 内 存 空 间 为 4GB ， 驻 留 的 操作 系统 为 1GB ， 那 么 用 户 
进程 的 最 大 大 小 为 3GB。 然 而 ， 许 多 用 户 进程 可 能 比 这 小 得 多 ， 比 方 说 ，100MB。 相 比 之 
F, 100MB 的 进程 可 以 在 2s 内 换 出 ， 而 换 出 3GB 需要 60s。 显 然 ， 知道 一 个 用 户 进程 真正 
需要 的 内 存 空 间 而 不 是 可 能 需要 的 内 存 空 间 ， 是 非常 有 用 的 。 因 此 ， 只 需要 交换 真正 使 用 
的 内 存 ， 就 可 以 减少 交换 时 间 。 为 有 效 使 用 这 种 方法 ， 用 户 需 要 告诉 系统 它 的 内 存 需 求情 
况 。 因 此 ， 具 有 动态 内 存 需求 的 进程 需要 通过 系统 调用 ( request_memory() fil release _ 
memory() ) 来 通知 操作 系统 它 的 内 存 需 求 变化 情况 。 

交换 也 受到 其 他 因素 的 约束 。 如 果 我 们 想 要 换 出 一 个 进程 ， 那 么 应 确保 该 进程 是 完全 处 
于 空闲 的 。 特 别 关 注 的 是 任何 等 待 /O。 当 需要 换 出 一 个 进程 以 释放 内 存 时 ， 该 进程 可 能 正 
在 等 待 IO 操作 。 然 而 ， 如 果 IO 异步 访问 用 户 内 存 的 IO 缓冲 区 ， 那 么 该 进程 就 不 能 换 出 。 
假定 由 于 设备 忙 ，I/O 操作 在 排队 等 待 。 如 果 我 们 需要 换 出 进程 Pi RAEE Pa, AA T 
O 操作 可 能 试图 使 用 现在 已 属于 进程 P 的 内 存 。 解 决 这 个 问题 有 两 种 主要 方法 : 一 是 不 能 
换 出 等 待 处 理 IO 的 进程 ， 二 是 IO 操作 的 执行 只 能 使 用 操作 系统 的 缓冲 。 只 有 在 进程 换 入 
时 ， 操 作 系 统 缓冲 与 进程 内 存 之 间 才 能 进行 数据 转移 。 注 意 ， 这 种 双 缓 冲 (double buffering) 
本 身 增 加 了 开销 。 我 们 现在 需要 再 次 复制 数据 ， 从 内 核 内 存 到 用 户 内 存 ， 然 后 用 户 进程 可 以 
访问 它 。 

现代 操作 系统 现在 并 不 使 用 标准 交换 。 它 的 交换 时 间 太 多 ， 它 提供 的 执行 时 间 太 少 ， 
不 是 合理 的 内 存 管理 的 解决 方案 。 然 而 ， 一 些 交 换 的 变种 却 在 许多 系统 中 得 以 应 用 ， 包 括 
UNIX, Linux 和 Windows。 一 个 常用 的 变种 是 : 正常 情况 下 ， 禁 止 交换 ， 当 空闲 内 存 (未 
被 操作 系统 或 进程 使 用 的 内 存 ) 低 于 某 个 阅 值 时 ， 启 用 交换 。 当 空闲 内 存 的 数量 增加 了 ， 就 
停止 交换 。 另 一 变种 是 交换 进程 的 部 分 (而 不 是 整个 进程 )， 以 降低 交换 时 间 。 通 常 ， 这 些 
交换 的 变种 通常 与 虚拟 内 存 一 起 工作 ， 参 见 第 9 章 。 


8.2.2 ”移动 系统 的 交换 


虽然 用 于 PC 和 服务 器 的 大 多 数 操作 系统 支持 一 些 交换 的 变形 ， 移 动 系统 通常 不 或 持 任 
何 形式 的 交换 。 移 动 设备 通常 采用 闪存 ， 而 不 是 空间 更 大 的 硬盘 作为 它 的 永久 存储 。 导 致 的 
空间 约束 是 移动 操作 系统 设计 者 避免 交换 的 原因 之 一 。 其 他 原因 包括 : 闪存 写 信 次 数 的 限制 
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以 及 内 存 与 闪存 之 间 的 吞吐 量 差 。 

当空 闲 内 存 降 低 到 一 定 阅 值 以 下 时 ， 苹 果 的 10S， 不 是 采用 交换 ， 而 是 要 求 应 用 程序 自 
愿 放弃 分 配 的 内 存 。 只 读数 据 (如 代码 ) 可 从 系统 中 删除 ， 以 后 如 有 必要 再 从 闪存 重新 加 载 。 
已 修改 的 数据 (如 堆栈 ) 不 会 被 删除 。 然 而 ， 操 作 系统 可 以 终止 任何 未 能 释放 足够 内 存 的 应 
用 程序 。 

Android 不 支持 交换 ， 而 采用 类 似 iOS 使 用 的 策略 。 如 果 没 有 足够 可 用 的 空闲 内 存 ， 则 
它 可 以 终止 进程 。 然 而 ， 在 终止 进程 之 前 ，Android 将 其 应 用 程序 状态 (application state) 写 
到 闪存 ， 以 便 它 能 快速 重新 启动 。 

由 于 这 些 限制 ， 移 动 系统 的 开发 人 员 应 小 心 分 配 和 释放 内 存 ， 以 确保 他 们 的 应 用 程序 不 
会 使 用 太 多 内 存 或 遭受 内 存 泄漏 。 注 意 : iOS 和 Android 支持 分 页 ， 所 以 他 们 确实 有 内 存 管 
理 能 力 。 在 本 章 的 后 面 ， 我 们 将 讨论 分 页 。 


8.3 连续 内 存 分 配 


内 存 应 容纳 操作 系统 和 各 种 用 户 进程 ， 因 此 应 该 尽 可 能 有 效 地 分 配 内 存 。 本 节 介 绍 一 种 
早期 方法 : 连续 内 存 分 配 。 

内 存 通常 分 为 两 个 区 域 : 一 个 用 于 驻 留 操作 系统 ， 另 一 个 用 于 用 户 进 程 。 操 作 系 统 可 以 
放 在 低 内 存 ， 也 可 放 在 高 内 存 。 影 响 这 一 决定 的 主要 因素 是 中 断 向 量 的 位 置 。 由 于 中 断 向 量 
通常 位 于 低 内 存 ， 因 此 程序 员 通 常 将 操作 系统 也 放 在 低 内 存 。 本 书 只 讨论 操作 系统 位 于 低 内 
存 的 情况 ; 其 他 情况 的 讨论 也 类 似 。 

通常 ， 我 们 需要 将 多 个 进程 同时 放 在 内 存 中 。 因 此 我 们 需要 考虑 ， 如 何 为 输入 队列 中 需 
要 调 人 内 存 的 进程 分 配 内 存 空间 。 在 采用 连续 内 存 分 配 (contiguous memory allocation) 时 ， 
每 个 进程 位 于 一 个 连续 的 内 存 区 域 ， 与 包含 下 一 个 进程 的 内 存 相 连 。 


8.3.1 内 存 保护 


在 深入 讨论 内 存 分 配 前 ， 我 们 应 先 讨论 内 存 保护 问题 。 通 过 组 合 前 面 讨论 的 两 个 想法 ， 
我 们 可 以 防止 进程 访问 不 属于 它 的 内 存 。 如 果 一 个 系统 有 重 定位 寄存 器 ( 8.1.3 节 ) 和 界限 寄 
存 器 (8.1.1 节 )， 则 能 实现 我 们 的 目标 。 重 定位 寄存 器 含有 最 小 的 物理 地 址 值 ; 界限 寄存 器 
含有 逻辑 地 址 的 范围 值 (例如 ， 重 定位 =100040， 界 限 =74600 ) 。 每 个 逻辑 地 址 应 在 界限 寄 
存 器 规定 的 范围 内 。MMU 通过 动态 地 将 逻辑 地 址 加 上 重 定位 寄存 器 的 值 ， 来 进行 映射 。 映 
射 后 的 地 址 再 发 送 到 内 存 (图 8-6 )。 





图 8-6 重 定位 和 界限 寄存 器 的 硬件 支持 
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当 CPU 调度 器 选择 一 个 进程 来 执行 时 ， 作 为 上 下 文 切 换 工 作 的 一 部 分 ， 分 派 器 会 用 正 
确 的 值 来 加 载重 定位 寄存 器 和 界限 寄存 器 。 由 于 CPU 所 产生 的 每 个 地 址 都 需要 与 这 些 寄 存 
器 进行 核对 ， 所 以 可 以 保证 操作 系统 和 其 他 用 户 的 程序 和 数据 不 受 该 运行 进程 的 影响 。 

重 定位 寄存 器 方案 提供 了 一 种 有 效 方式 ， 以 便 允 许 操 作 系 统 动态 改变 大 小 。 许 多 情况 都 
需要 这 一 灵活 性 。 例 如 ， 操 作 系 统 的 驱动 程序 需要 代码 和 缓冲 空间 。 如 果 一 个 驱动 程序 (或 
其 他 操作 系统 的 服务 ) 不 常 使 用 ， 可 以 不 必 在 内 存 中 保留 它 的 代码 和 数据 ， 这 部 分 空间 可 以 
用 于 其 他 目的 。 这 类 代码 有 时 称 为 暂时 (transient) 的 操作 系统 代码 ; 它们 根据 需要 再 调 人 
或 调 出 。 因此， 使 用 这 种 代码 可 以 在 程序 执行 时 动态 改变 操作 系统 的 大 小 。 


8.3.2 内存 分 配 


现在 我 们 讨论 内 存 分 配 。 最 为 简单 的 内 存 分 配方 法 之 一 ， 就 是 将 内 存 分 为 多 个 固定 大 小 
的 分 区 ( partition)。 每 个 分 区 可 以 只 包含 一 个 进程 。 因 此 ， 多 道 程 序 的 程度 受 限于 分 区 数 。 
如 果 使 用 这 种 多 分 区 方法 ( multiple-partition method)， 那 么 当 一 个 分 区 空闲 时 ， 可 以 从 输入 
队列 中 选择 一 个 进程 ， 以 调 人 空闲 分 区 。 当 该 进程 终止 时 ， 它 的 分 区 可 以 用 于 其 他 进程 。 这 
种 方法 最 初 为 IBM OS/360 操作 系统 (PRA MFT) 所 使 用 ， 现 在 已 不 再 使 用 。 下 面 所 撒 述 的 
方法 是 固定 分 区 方案 的 推广 ( 称 为 MVT)， 它 主要 用 于 批 处 理 环 境 。 这 里 所 描述 的 许多 思想 
也 可 用 于 采用 纯 分 段 内 存 管理 的 分 时 操作 系统 (8.4 节 )。 

对 于 可 变 分 区 (variable-partition ) 方案 ， 操 作 系统 有 一 个 表 ， 用 于 记录 哪些 内 存 可 用 和 
哪些 内 存 已 用 。 开 始 ， 所 有 内 存 都 可 用 于 用 户 进程 ， 因 此 可 以 作为 一 大 块 的 可 用 内 存 ， 称 为 
FL (hole)。 最 后 ， 正 如 将 会 看 到 的 ， 内 存 有 一 个 集合 ， 以 包含 各 种 大 小 的 孔 。 

随 着 进程 进入 系统 ， 它 们 将 被 加 入 输入 队列 。 操 作 系 统 根 据 所 有 进程 的 内 存 需 求 和 现 有 
可 用 内 存 的 情况 ,决定 哪些 进程 可 分 配 内 存 。 当 进程 分 配 到 空间 时 ， 它 就 加 载 到 内 存 ， 并 开 
始 竞争 CPU。 当 进程 终止 时 ， 它 将 释放 内 存 ， 该 内 存 可 以 被 操作 系统 分 配给 输入 队列 内 的 
其 他 进程 。 

任何 时 候 ， 都 有 一 个 可 用 块 大 小 的 列表 和 一 个 输入 队列 。 操 作 系 统 根据 调度 算法 来 对 输 
人 队列 进行 排序 。 内 存 不 断 地 分 配给 进程 ， 直 到 下 一 个 进程 的 内 存 需 求 不 能 满足 为 止 ， 这 时 
没有 足够 大 的 可 用 块 (EFL) 来 加 载 进程 。 操 作 系 统 可 以 等 到 有 足够 大 的 空间 ， 或 者 可 以 往 
下 扫描 输入 队列 ， 以 确定 是 否 有 其 他 内 存 需 求 较 小 的 进程 可 以 被 满足 。 

通常 ， 如 上 所 述 ， 可 用 的 内 存 块 为 分 散在 内 存 里 的 不 同 大 小 的 孔 的 集合 。 当 新 进程 需 
要 内 存 时 ， 系 统 为 该 进程 查找 足够 大 的 孔 。 如 果 孔 太 大 ， 那 么 就 分 为 两 块 : 一 块 分 配给 新 进 
程 ， 另 一 块 还 回 到 孔 集合 。 当 进程 终止 时 ， 它 将 释放 内 存 ， 该 内 存 将 还 给 孔 的 集合 。 如 果 新 
孔 与 其 他 孔 相 邻 ， 那 么 将 这 些 孔 合并 成 大 孔 。 这 时 ， 系 统 可 以 检查 : 是 否 有 进程 在 等 待 内 存 
空间 ， 以 及 新 合并 的 内 存 空间 是 否 满足 等 待 进程 等 。 

这 种 方法 是 通用 动态 存储 分 配 问题 (dynamic storage-allocation problem) (根据 一 组 空闲 
孔 来 分 配 大 小 为 的 请 求 ) 的 一 个 特例 。 这 个 问题 有 许多 解决 方法 。 从 一 组 可 用 孔 中 选择 一 
个 空闲 孔 的 最 为 常用 方法 包括 : 首次 适应 (first-fit)、 最 优 适 应 (best-fit) 及 最 差 适 应 (worst- 
fit) 

e 首次 适应 : 分 配 首 个 足够 大 的 孔 。 查 找 可 以 从 头 开 始 ， 也 可 以 从 上 次 首次 适应 结束 

时 开始 。 一 旦 找到 足够 大 的 空闲 孔 ， 就 可 以 停止 。 
e 最 优 适应 : 分 配 最 小 的 足够 大 的 孔 。 应 查找 整个 列表 ， 除 非 列 表 按 大 小 排序 。 这 种 


242 RERA AGF 


方法 可 以 产生 最 小 剩余 孔 。 
。 最 差 适应 : 分 配 最 大 的 孔 。 同 样 ， 应 查找 整个 列表 ， 除 非 列 表 按 大 小 排序 。 这 种 方 
法 可 以 产生 最 大 剩余 孔 ， 该 孔 可 能 比 最 优 适应 产生 的 较 小 剩余 孔 更 为 适用 。 
模拟 结果 显示 ， 首 次 适应 和 最 优 适应 在 执行 时 间 和 利用 空间 方面 都 好 于 最 差 适应 。 首 次 
适应 和 最 优 适 应 在 利用 空间 方面 难 分 伯仲 ， 但 是 首次 适应 要 更 快 些 。 


8.3.3 碎片 


用 于 内 存 分 配 的 首次 适应 和 最 优 适 应 算法 都 有 外 部 碎片 (external fragmentation) 的 问 
题 。 随 着 进程 加 载 到 内 存 和 从 内 存 退 出 ， 空 闲 内 存 空间 被 分 为 小 的 片段 。 当 总 的 可 用 内 存 之 
和 可 以 满足 请 求 但 并 不 连续 时 ， 这 就 出 现 了 外 部 碎片 问题 : 存储 被 分 成 了 大 量 的 小 孔 。 这 个 
问题 可 能 很 严重 。 在 最 坏 情况 下 ， 每 两 个 进程 之 间 就 有 空闲 (或 浪费 的 ) 块 。 如 果 这 些 内 存 
是 一 整 块 ， 那 么 可 能 可 以 再 运行 多 个 进程 。 

选择 首次 适应 或 者 最 优 适应 ， 可 能 会 影响 碎片 的 数量 。( 对 一 些 系统 来 说 ， 首 次 适应 更 
好 ;对 另 一 些 系统 ， 最 优 适应 更 好 )。 另 一 因素 是 从 空闲 块 的 哪 端 开始 分 配 。( 哪 个 是 剩余 的 
块 ， 是 上 面 的 还 是 下 面 的 ? ) 不 管 使 用 哪 种 算法 ， 外 部 碎片 始终 是 个 问题 。 

根据 内 存 空 间 总 的 大 小 和 平均 进程 大 小 的 不 同 ， 外 部 碎片 问题 或 许 次 要 或 许 重要 。 
例如 ， 采 用 首次 适应 方法 的 统计 说 明 ， 不 管 使 用 什么 优化 ， 假 定 有 个 可 分 配 块 ， 那 
么 可 能 有 0.5N 个 块 为 外 部 碎片 。 即 13 的 内 存 可 能 不 能 使 用 。 这 一 特性 称 为 50% 规则 
( 50-percent rule). 
内 存 碎 片 可 以 是 内 部 的 ， 也 可 以 是 外 部 的 。 假 设 有 一 个 18 464 字 节 大 小 的 孔 ， 并 采用 
多 分 区 分 配方 案 。 假 设 有 一 个 进程 需要 18 462 字 节 。 如 果 只 能 分 配 所 要 求 的 块 ， 那 么 还 剩 
下 一 个 2 字 节 的 孔 。 维 护 这 一 小 孔 的 开销 要 比 孔 本 身 大 很 多 。 因 此 ， 通 常 按 固 定 大 小 的 块 为 
单位 (而 不 是 字 节 ) 来 分 配 内 存 。 采 用 这 种 方案 ， 进 程 所 分 配 的 内 存 可 能 比 所 需 的 要 大 。 这 
两 个 数字 之 差 称 为 内 部 碎片 (internal fragmentation)， 这 部 分 内 存在 分 区 内 部 ， 但 又 不 能 用 。 

外 部 碎片 问题 的 一 种 解决 方法 是 紧缩 (compaction)。 它 的 目的 是 移动 内 存 内 容 ， 以 便 
将 所 有 空闲 空间 合并 成 一 整 块 。 然 而 ， 紧 缩 并 非 总 是 可 能 的 。 如 果 重 定位 是 静态 的 ， 并 且 在 
汇编 时 或 加 载 时 进行 的 ， 那 么 就 不 能 紧缩 。 只 有 重 定 位 是 动态 的 ， 并 且 在 运行 时 进行 的 ， 才 
可 采用 紧缩 。 如 果 地 址 被 动态 重 定位 ， 可 以 首先 移动 程序 和 数据 ， 然 后 再 根据 新 基地 址 的 值 
来 改变 基地 址 寄存 器 。 如 果 能 采用 紧缩 ， 那 么 还 要 评估 开销 。 最 简单 的 合并 算法 是 简单 地 将 
所 有 进程 移 到 内 存 的 一 端 ， 而 将 所 有 的 孔 移 到 内 存 的 另 一 端 ， 从 而 生成 一 个 大 的 空闲 块 。 这 
种 方案 比较 昂贵 。 

外 部 碎片 化 问题 的 另 一 个 可 能 的 解决 方案 是 : 允许 进程 的 逻辑 地 址 空间 是 不 连续 的 ; 这 
样 ， 只 要 有 物理 内 存 可 用 ， 就 允许 为 进程 分 配 内 存 。 有 两 种 互补 的 技术 可 以 实现 这 个 解决 方 
R: TH (8.4457) 和 分 页 ( 8.5 节 )。 这 两 个 技术 也 可 以 组 合 起 来 。 

碎片 是 一 个 常见 问题 ; 当 需 要 管理 数据 块 时 它 就 可 能 出 现 。 在 讨论 存储 管理 (第 
10~ 12 章 ) 时 ， 我 们 将 作 进一步 的 讨论 。 


8.4 分 段 


正如 已 经 看 到 的 ， 用户 的 内 存 视 图 与 实际 的 物理 内 存 不 一 样 。 这 同样 适用 于 程序 员 的 内 
存 视 图 。 事 实 上 ， 对 操作 系统 和 程序 员 来 说 ， 按 物理 性 质 来 处 理 内 存 是 不 方便 的 。 如 果 硬 件 
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可 以 提供 内 存 机 制 ， 以 便 将 程序 员 的 内 存 视图 映射 到 实际 的 物理 内 存 ， 那 么 会 如 何 ? 这样， 
系统 将 有 更 多 的 自由 来 管理 内 存 ， 而 程序 员 将 有 一 个 更 自然 的 编程 环境 。 分 段 提 供 了 这 种 
机 制 。 


8.4.1 基本 方法 


程序 员 是 否认 为 内 存 是 一 个 字 节 的 线性 数组 ， 有 的 包含 
指令 而 其 他 的 包含 数据 ?大 多 数 程序 员 会 说 “不 ”。 相 反 ， 程 
序 员 通常 愿意 将 内 存 看 作 一 组 不 同 长 度 的 段 ， 这 些 段 之 间 并 
没有 一 定 的 顺序 (图 8-7 )。 

当 编 写 程序 时 ， 程 序 员 认 为 它 是 由 主 程序 加 上 一 组 方法 、 
过 程 或 函数 所 构成 的 。 它 还 可 以 包括 各 种 数据 结构 : MR, 
数组 、 堆 栈 、 变 量 等 。 每 个 模块 或 数据 元 素 通过 名 称 来 引 
用 。 程 序 员 会 说 “堆栈 “数学 库 ” 和 “ 主 程序 ”等 ， 而 并 
不 关心 这 些 元 素 所 在 内 存 的 位 置 。 她 不 关心 堆栈 是 放 在 函数 
Sart) 之 前 还 是 之 后 。 这 些 段 的 长 度 是 不 同 的 ， 其 长 度 是 由 
这 些 段 在 程序 中 的 目的 决定 的 。 段 内 的 元 素 是 通过 它们 距 段 TERE 
首 的 偏 移 来 指定 : 程序 的 第 一 条 语句 、 在 堆栈 里 的 第 7 个 栈 本 
帧 、 函 数 sqrt() 的 第 5 条 指令 等 。 tikai ees 

HEt (segmentation) gt MAA MAA BT SR, Wi Mes Eh B58] 
段 构成 。 每 个 段 都 有 名 称 和 长 度 。 地 址 指定 了 段 名 称 和 段 内 偏 移 。 因 此 用 户 通 过 两 个 量 来 指 
定 地 址 : 段 名 称 和 上段 偏 移 。 

为 了 实现 简单 起 见 ， 段 是 编号 的 ， 是 通过 段 号 而 不 是 段 名 称 来 引用 。 因 此 ， 逮 辑 地 址 由 
有 序 对 (two tuple) 组 成 : 





< 段 号 ， 偏 移 > 

通常 ， 在 编译 用 户 程序 时 ， 编 译 器 会 根据 输入 程序 来 自动 构造 段 。 

一 个 C 编译 器 可 能 会 创建 如 下 段 : 

e 代码 

e 全 局 变量 

© HE (内 存 从 堆 上 分 配 ) 

e 每 个 线程 使 用 的 栈 

© 标准 的 C JE 
在 编译 时 链接 的 库 可 能 分 配 不 同 的 段 。 加 载 程序 会 装 人 所 有 这 些 段 ， 并 为 它们 分 配 
段 号 。 


8.4.2 分 段 硬 件 


虽然 用 户 现在 能 够 通过 二 维 地 址 来 引用 程序 内 的 对 象 ， 但 是 实际 物理 内 存 仍然 是 一 
维 的 字 节 序列 。 因 此 ， 我 们 应 定义 一 个 实现 方式 ， 以 便 映 射 用 户 定 义 的 二 维 地 址 到 一 维 物 B59) 
理 地 址 。 这 个 地 址 是 通过 段 表 (segment table) 来 实现 的 。 段 表 的 每 个 条 目 都 有 段 基地 址 
(segment base) 和 段 界 限 (segment limit)。 段 基地 址 包含 该 段 在 内 存 中 的 开始 物理 地 址 ， 而 
段 界限 指定 该 段 的 长 度 。 
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段 表 的 使 用 如 图 8-8 所 示 。 每 个 逻辑 地 址 由 两 部 分 组 成 : AS s 和 有 段 偏 移 4。 段 号 用 作 
段 表 的 索引 ， 逻 辑 地 址 的 偏 移 d 应 位 于 0 和 有 段 界限 之 间 。 如 果 不 是 这 样 ， 那 么 会 陷入 操作 系 
统 中 (逻辑 地 址 试图 访问 段 的 外 面 )。 如 果 偏 移 4 合法 ， 那 么 就 与 基地 址 相 加 而 得 到 所 需 字 
节 的 物理 内 存 地 址 。 因 此 ， 段 表 实 际 上 是 基 址 寄存 器 值 和 界限 寄存 器 值 的 对 的 数组 。 

作为 一 个 例子 ， 假 设 如 图 8-9 所 示 的 情况 。 假 设 有 5 个 段 ， 按 0 ~ 4 来 编号 。 各 段 按 如 
图 所 示 来 存储 。 每 个 段 都 在 段 表 中 有 一 个 条 目 ， 它 包括 段 在 物理 内 存 内 的 开始 地 址 (基地 址 ) 
和 该 段 的 长 度 (界限 )。 例 如 ， 段 2 为 400 字 节 长 ， 开 始 于 位 置 4300。 因 此 ， 对 段 2 字 节 53 
的 引用 映射 成 位 置 4300 + 53 = 4353。 对 段 3 字 节 852 的 引用 映射 成 位 置 3200 (Et 3 基地 址 ) + 
852 = 4052。 对 段 0 FH 1222 的 引用 会 陷入 操作 系统 ， 这 是 由 于 该 段 仅 为 1000 字 节 长 。 





陷阱 : 寻 址 错误 物理 内 存 
图 8-8 分 段 硬件 


1000 | 1400 
400 | 6300 
400 | 4300 

1100 | 3200 

1000 | 4700 





逻辑 地 址 空间 





图 8-9 分 段 的 例子 


8.5 分 页 
360 分 段 允 许 进程 的 物理 地 址 空间 是 非 连 续 的 。 分 页 ( paging) 是 提供 这 种 优势 的 另 一 种 内 
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存 管理 方案 。 然 而 ， 分 页 避免 了 外 部 碎片 和 紧缩 ， 而 分 段 不 可 以 。 分 页 也 避免 了 将 不 同 大 小 
的 内 存 块 匹配 到 交换 空间 的 麻烦 问题 。 在 分 页 引入 之 前 采用 的 内 存 管理 方案 都 有 这 个 问题 。 
这 个 问题 出 现 的 原因 是 : 当 位 于 内 存 的 代码 和 数据 段 需要 换 出 时 ， 应 在 备份 存储 上 找到 空 
间 。 备 份 存储 也 有 同样 的 与 内 存 相 关 的 碎片 问题 ， 但 是 访问 更 慢 ， 因 此 紧缩 是 不 可 能 的 。 由 
于 比 早 期 方法 更 加 优越 ， 各 种 形式 的 分 页 为 大 多 数 操作 系统 采用 ， 包 括 大 型 机 的 和 智能 手机 
的 操作 系统 。 实 现 分 页 需要 操作 系统 和 计算 机 硬件 的 协作 。 


8.5.1 基本 方法 


实现 分 页 的 基本 方法 涉及 将 物理 内 存 分 为 固定 大 小 的 块 ， 称 为 帧 或 页 帧 〈 frame) ; 而 将 
逻辑 内 存 也 分 为 同样 大 小 的 块 ， 称 为 页 或 页 面 (page)。 当 需要 执行 一 个 进程 时 ， 它 的 页 从 
文件 系统 或 备份 存储 等 源 处 ， 加 载 到 内 存 的 可 用 帧 。 备 份 存储 划分 为 固定 大 小 的 块 ， 它 与 单 
PAF CRSA SAFE GE) 的 大 小 一 样 。 这 个 相当 简单 的 方法 功能 强 且 变化 多 。 例 如 ， 
逻辑 地 址 空间 现在 完全 独立 于 物理 地 址 空间 ， 因 此 ， 一 个 进程 可 以 有 一 个 64 位 的 逻辑 地 址 
空间 ， 而 系统 的 物理 内 存 小 于 2% 字 节 。 

分 页 的 硬件 支持 如 图 8-10 所 示 。 由 CPU 生成 的 每 个 地 址 分 为 两 部 分 : 页 码 (page 
number)(p) AR (page offset) (qd)。 页 码 作为 页 表 的 索引 。 页 表 包 含 每 页 所 在 物理 内 存 
的 基地 址 。 这 个 基地 址 与 页 偏 移 的 组 合 就 形成 了 物理 内 存 地 址 ， 可 发 送 到 物理 单元 。 内 存 的 
分 页 模型 如 图 8-11 所 示 。 


逻辑 内 存 





页 表 
图 8-10 分 页 的 硬件 支持 图 8-11 逮 辑 内 存 和 物理 内 存 的 分 页 模型 


页 大 小 (与 帧 大 小 一 样 ) 是 由 硬件 来 决定 的 。 页 的 大 小 为 2 BOF 根据 计算 机 体系 结 
构 的 不 同 ， 页 大 小 可 从 512 字 节 到 1GB 不 等 。 将 页 的 大 小 选 为 2 的 震 可 以 方便 地 将 逻辑 地 
址 转换 为 页 码 和 页 偏 移 。 如 果 人 逻辑 地 址 空间 为 2"， 且 页 大 小 为 2 字 节 ， 那 么 逻辑 地 址 的 高 
m-n 位 表示 页 码 ， 而 低 n 位 表示 页 偏 移 。 这 样 ， 逻 辑 地 址 就 如 下 图 所 示 : 


页 码 
oF pst 





m-n n 


其 中 己 作 为 页 表 的 索引 ， 而 4d 作为 页 的 偏 移 。 
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| RA Linux 系统 的 页 的 大 小 

| 在 Linux 系统 上 ， 页 大 小 根据 架构 而 变化 ， 有 多 个 方法 可 以 获取 页 大 小 。 一 种 方法 采 
| 用 系统 调用 getpagesize()。 另 一 个 策略 是 在 命令 行 上 输入 如 下 命令 : 

/ getconf PAGESIZE 


| 这 些 技术 都 返回 页 大 小 〔 按 字 节 数 )。 


举 一 个 具体 (虽说 很 小 ) 的 例子 ,假设 如 图 8-12 所 
示 的 内 存 。 这 里 ， 仙 辑 的 地 址 的 n 为 2，m 为 4。 采 用 
大 小 为 4 字 节 而 物理 内 存 为 32 字 节 (8 页)， 我 们 说 明 
程序 员 的 内 存 视图 如 何 映射 到 物理 内 存 。 逻 辑 地 址 0 的 
页 码 为 0， 页 偏 移 为 0。 根 据 页 表 ， 可 以 查 到 页 码 0 对 
应 帧 S， 因 此 逮 辑 地 址 0 映射 到 物理 地 址 20[= (5 x 4) + 
0]。 逻 辑 地 址 3 (页 码 为 0， 页 偏 移 为 3 ) 映射 到 物理 地 
HE 23[= (5 x 4) +3]。 逮 辑 地 址 4 的 页 码 为 1， 页 偏 移 为 
0 ; 根据 页 表 ， 页 码 1 对 应 为 帧 6。 因 此， 逻辑 地 址 4 映 
射 到 物理 地 址 24[= (6 x 4) + 0]。 敢 辑 地 址 13 映射 到 物理 
地 址 9。 

读者 可 能 注意 到 ， 分 页 本 身 是 一 种 动态 的 重 定位 。 
每 个 逻辑 地 址 由 分 页 硬件 绑 定 为 某 个 物理 地 址 。 采 用 分 
页 类 似 于 采用 一 组 基 址 ( 重 定位 ) 寄存 器 ， 每 个 基 址 对 应 
着 一 个 内 存 帧 。 TANU 

采用 分 页 方案 不 会 产生 外 部 碎片 : PES 2S DT ABT 
以 分 配给 需要 它 的 进程 。 不 过 ， 分 页 有 内 部 碎片 。 注 意 ， ”和 和 站 人 
分 配 是 以 帧 为 单位 进行 的 。 如 果 进 程 所 要 求 的 内 存 并 不 
是 页 的 整数 倍 ， 那 么 最 后 一 个 帧 就 可 能 用 不 完 。 例 如 ， 如 果 页 的 大 小 为 2048 字 节 ， 一 个 大 
小 为 72776 字 节 的 进程 需要 35 个 页 和 1086 字 节 。 该 进程 会 得 到 36 个 帧 ， 因 此 有 2048- 
1086 = 962 字 节 的 内 部 碎片 。 在 最 坏 情 况 下 ， 一 个 需要 n 页 再 加 1 字 节 的 进程 ， 需 要 分 配 
n+ 1 AW, 这 样 几乎 产生 整个 帧 的 内 部 碎片 。 

如 果 进 程 大 小 与 页 大 小 无 关 ， 那 么 每 个 进程 的 内 部 碎片 的 均值 为 半 页 。 从 这 个 角度 来 
看 ,小 的 页 面 大 小 是 可 取 的 。 不 过 ， 由 于 页 表 内 的 每 项 也 有 一 定 的 开销 ,该 开销 随 着 页 的 增 
大 而 降低 。 再 者 ， 磁 盘 IO 操作 随 着 传输 量 的 增 大 也 会 更 为 有 效 (第 12 章 )。 一 般 来 说 ， 随 
着 时 间 的 推移 ， 页 的 大 小 也 随 着 进程 、 数 据 和 内 存 的 不 断 增 大 而 增 大 。 现 在 ， 页 大 小 通常 为 
4KB 一 8SKB ， 有 的 系统 可 能 支持 更 大 的 页 。 有 的 CPU 和 内 核 可 能 支持 多 种 页 大 小 。 例 如 ， 
Solaris 根据 按 页 所 存储 的 数据 ， 可 使 用 8KB 或 4MB 的 大 小 的 页 。 研 究 人 员 正 在 研究 ， 以 便 
支持 快速 可 变 的 页 大 小 。 

通常 ， 对 于 32 位 的 CPU， 每 个 页 表 条 目 是 4 字 节 长 的 ， 但 是 这 个 大 小 也 可 能 改变 。 一 
个 32 位 的 条 目 可 以 指向 2” 个 物理 帧 中 的 任 一 个 。 如 果 帧 为 4KB (2°), 那么 具有 4 字 节 条 
目的 系统 可 以 访问 2” 字 节 大 小 (或 16TB) 的 物理 内 存 。 这 里 我 们 应 该 注意 到 ， 分 页 内 存 系 
统 的 物理 内 存 的 大 小 不 同 于 进程 的 最 大 逻辑 大 小 。 当 进一步 探索 分 页 时 ， 我 们 将 引入 其 他 的 
信息 ， 这 个 信息 应 保存 在 页 表 条 目 中 。 该 信息 也 减少 了 可 用 于 帧 地 址 的 位 数 。 因 此 ， 一 个 具 
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有 32 位 页 表 条 目的 系统 可 访问 的 物理 内 存 可 能 小 于 最 大 值 。32 位 CPU 采用 32 位 地 址 ， 意 
味 着 ,一 个 进程 的 空间 只 能 为 2” 字 节 (4GB)。 因 此 ,分 页 允许 我 们 使 用 的 物理 内 存 大 于 
CPU 地 址 指针 可 访问 的 空间 。 

当 系 统 进程 需要 执行 时 ， 它 将 检查 该 进程 的 大 小 ( 按 页 来 计算 )， 进 程 的 每 页 都 需要 一 
帧 。 因 此 ， 如 果 进 程 需要 nn 页， 那么 内 存 中 至 少 应 及 个 帧 。 如 果 有 ， 那 么 就 可 分 配给 新 进 
程 。 进 程 的 第 一 页 装 入 一 个 已 分 配 的 帧 ， 帧 码 放 入 进程 的 页 表 中 。 下 一 页 分 配给 另 一 帧 ， 其 
帧 码 也 放 入 进程 的 页 表 中 ， 等 等 (图 8-13 )。 


空闲 帧 列表 空闲 帧 列表 
14 15 





a) 分 配 前 
图 8-13 空闲 帧 


分 页 的 一 个 重要 方面 是 ， 程 序 员 视 图 的 内 存 和 实际 的 物理 内 存 的 清楚 分 离 。 程 序 员 将 内 
存 作为 一 整 块 来 处 理 ， 而 且 它 只 包含 这 一 个 程序 。 事 实 上 ， 一 个 用 户 程序 与 其 他 程序 一 起 ， 
分 散在 物理 内 存 上 。 程 序 员 视图 的 内 存 和 实际 的 物理 内 存 的 不 同 是 通过 地 址 转换 硬件 来 协调 
的 。 逻 辑 地 址 转变 成 物理 地 址 。 这 种 映射 ， 程 序 员 是 不 知道 的 ， 它 是 由 操作 系统 控制 的 。 注 
意 ,根据 定义 ， 用 户 进程 不 能 访问 不 属于 它 的 内 存 。 它 无 法 访问 它 的 页 表 规 定之 外 的 内 存 ， 
页 表 只 包括 进程 拥有 的 那些 页 。 

由 于 操作 系统 管理 物理 内 存 ， 它 应 知道 物理 内 存 的 分 配 细节 : 哪些 帧 已 分 配 ， 哪 些 帧 空 
着 ， 总 共有 多 少 帧 ， 等 等 。 这 些 信息 通常 保存 在 称 为 帧 表 〈 frame table) 的 数据 结构 中 。 在 
帧 表 中 ， 每 个 条 目 对 应 着 一 个 帧 ， 以 表示 该 帧 是 空闲 还 是 已 占用 ; 如 果 占 用 ， 是 被 哪个 (或 
哪些 ) 进程 的 哪个 页 所 占用 。 

另外 ， 操 作 系统 应 意识 到 ， 用 户 进程 是 在 用 户 空间 内 执行 ， 所 有 好 辑 地 址 需要 映射 到 物 
理 地 址 。 如 果 用 户 执行 一 个 系统 调用 (例如 ， 要 进行 WO)， 并 提供 地 址 作为 参数 (例如 ， 一 
个 缓冲 )， 那 么 这 个 地 址 应 映射 ， 以 形成 正确 的 物理 地 址 。 操 作 系 统 为 每 个 进程 维护 一 个 页 
表 的 副本 ， 就 如 同 它 需要 维护 指令 计数 器 和 寄存 器 的 内 容 一 样 。 每 当 操作 系统 自己 将 迎 辑 地 
址 映射 成 物理 地 址 时 ， 这 个 副本 可 用 作 转 换 。 当 一 个 进程 可 分 配 到 CPU 时 ，CPU 分 派 器 也 
根据 该 副本 来 定义 硬件 页 表 。 因 此 ， 分 页 增加 了 上 下 文 切换 的 时 间 。 


8.5.2 硬件 支持 


每 个 操作 系统 都 有 自己 的 保存 页 表 的 方法 。 有 的 为 每 个 进程 分 配 一 个 页 表 。 页 表 的 指 
针 ， 与 其 他 寄存 器 的 值 (如 指令 计数 器 )， 一 起 存 人 进程 控制 块 。 当 分 派 器 需要 启动 一 个 进 
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程 时 ， 它 应 首先 加 载 用 户 寄 存 器 ， 并 根据 保存 的 用 户 页 表 来 定义 正确 的 硬件 页 表 值 。 其 他 操 
作 系 统 提供 一 个 或 多 个 页 表 ， 以 便 减 少 进 程 的 上 下 文 切换 的 开销 。 

页 表 的 硬件 实现 有 多 种 方法 。 最 为 简单 的 一 种 方法 是 ， 将 页 表 作 为 一 组 专用 的 寄 
存 器 来 实现 。 这 些 寄存 器 应 用 高 速 逻 辑 电 路 来 构造 ， 以 高 效 地 进行 分 页 地 址 的 转换 。 由 
于 每 次 访问 内 存 都 要 经 过 分 页 映射 因此 效率 是 一 个 重要 的 考虑 因素 。CPU 分 派 器 在 
加 载 其 他 寄存 器 时 ， 也 需要 加 载 这 些 寄 存 器 。 当 然 ， 加 载 或 修改 页 表 寄 存 器 的 指令 是 
特权 的 ， 因 此 只 有 操作 系统 才 可 以 修改 内 存 映 射 表 。 具 有 这 种 结构 的 一 个 例子 是 DEC 
PDP-11。 它 的 地 址 有 16 位， 而 页 面 大 小 为 8KB。 因 此 页 表 有 8 个 条 目 ， 可 放 在 快速 寄存 
器 中 。 

如 果 页 表 比 较 小 (例如 256 个 条 目 )， 那 么 页 表 使 用 寄存 器 还 是 令 人 满意 的 。 但是， 大 
多 数 现代 计算 机 都 允许 页 表 非 常 大 (例如 100 万 个 条 目 )。 对 于 这 些 机 器 ， 采 用 快速 寄存 器 
来 实现 页 表 就 不 可 行 了 。 因 而 需要 将 页 表 放 在 内 存 中 ， 并 将 页 表 基 地 址 寄存 器 ( Page-Table 
Base Register, PTBR) 指向 页 表 。 改 变 页 表 只 需要 改变 这 一 寄存 器 就 可 以 ， 这 也 大 大 降低 了 
上 下 文 切换 的 时 间 。 

采用 这 种 方法 的 问题 是 访问 用 户 内 存 位 置 的 所 需 时 间 。 如 果 需 要 访问 位 置 ;i， 那 么 应 首 
先 利用 PTBR 的 值 ， 再 加 上 i 的 页 码 作 为 偏 黎 ， 来 查找 页 表 。 这 一 任务 需要 内 存 访问 。 根 据 
所 得 的 帧 码 ， 再 加 上 页 偏 移 ， 就 得 到 了 真实 物理 地 址 。 接 着 就 可 以 访问 内 存 内 的 所 需 位 置 。 
采用 这 种 方案 ， 访 问 一 个 字 节 需要 两 次 内 存 访 问 〈 一 次 用 于 页 表 条 目 ， 一 次 用 于 字 节 )。 这 
样 ， 内 存 访 问 的 速度 就 减 半 。 在 大 多 数 情况 下 ， 这 种 延迟 是 无 法 忍受 的 。 我 们 还 不 如 采用 交 
换 机 制 ! 

这 个 问题 的 标准 解决 方案 是 采用 专用 的 、 小 的 、 查 找 快速 的 高 速 硬 件 缓冲 ， 它 称 为 转换 
表 缓冲 区 (Translation Look-aside Buffer, TLB), TLB 是 关联 的 高 速 内 存 。TLB 条 目 由 两 部 
分 组 成 : 键 (标签 ) 和 值 。 当 关联 内 存根 据 给 定 值 查找 时 ， 它 会 同时 与 所 有 的 键 进行 比较 。 
如 果 找 到 条 目 ， 那 么 就 得 到 相应 值 的 字段 。 搜 索 速度 很 快 ; 现代 的 TLB 查找 硬件 是 指令 流 
水 线 的 一 部 分 ， 基 本 上 不 添加 任何 性 能 负担 。 为 了 能 够 在 单 步 的 流水 线 中 执行 搜索 ，TLB 不 
应 大 ; 通常 它 的 大 小 在 32 ~ 1024 之 间 。 有 些 CPU 采用 分 开 的 指令 和 数据 地 址 的 TLB。 这 
可 以 将 TLB 条 目的 数量 扩大 一 倍 ， 因 为 查找 可 以 在 不 同 的 流水 线 步 骤 中 进行 。 通 过 这 个 演 
变 ， 我 们 可 以 看 到 CPU 技术 的 发 展 趋势 : 系统 从 没有 TLB 发 展 到 具有 多 层 的 TLB， 与 具有 
多 层 的 高 速 缓存 一 样 。 

TLB 与 页 表 一 起 使 用 的 方法 如 下 : TLB 只 包含 少数 的 页 表 条 目 。 当 CPU 产生 一 个 逻辑 
地 址 后 ， 它 的 页 码 就 发 送 到 TLB。 如 果 找 到 这 个 页 码 ， 它 的 帧 码 也 就 立即 可 用 ， 可 用 于 访 
问 内 存 。 如 上 面 所 提 到 的 ， 这 些 步骤 可 作为 CPU 的 流水 线 的 一 部 分 来 执行 ; 与 没有 实现 分 
页 的 系统 相 比 ， 这 并 没有 减低 性 能 。 

如 果 页 码 不 在 TLB 中 ( 称 为 TLB 未 命中 (TLB miss))， 那 么 就 需 访问 页 表 。 取 决 于 
CPU， 这 可 能 由 硬件 自动 处 理 或 通过 操作 系统 的 中 断 来 处 理 。 当 得 到 帧 码 后 ， 就 可 以 用 它 
来 访问 内 存 ( 见 图 8-14 )。 另 外 ,将 页 码 和 帧 码 添 加 到 TLB， 这 样 下 次 再 用 时 就 可 很 快 查 
找到 。 如 果 TLB 内 的 条 目 已 满 ， 那 么 会 选择 一 个 来 替换 。 替 换 策 略 有 很 多 ， 从 最 近 最 少 使 
用 替换 (LRU)， 到 轮转 替换 ， 到 随机 蔡 换 等 。 有 的 CPU 允许 操作 系统 参与 LRU AA MNS 
换 ， 其 他 的 自己 负责 替换 。 另 外 ， 有 的 TLB 人 允许 有 些 条 目 固定 下 来 ， 也 就 是 说 ， 它 们 不 会 
从 TLB 中 被 替换 。 通 常 ， 重 要 内 核 代 码 的 条 目 是 固定 下 来 的 。 
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图 8-14 HF TLB 的 分 页 硬件 


有 的 TLB 在 每 个 TLB 条 目 中 还 保存 地 址 空间 标识 符 (Address-Space Identifier, 
ASID)。ASID 唯一 标识 每 个 进程 ， 并 为 进程 提供 地 址 空间 的 保护 。 当 TLB 试图 解析 虚拟 页 
码 时 ， 它 确保 当前 运行 进程 的 ASID 与 虚拟 页 相关 的 ASID 相 匹 配 。 如 果 不 匹 配 ， 那 么 就 作 
为 TLB 未 命中 。 除 了 提供 地 址 空间 保护 外 ，ASID 也 允许 TLB 同时 包括 多 个 不 同 进程 的 条 
Ho WR TLB 不 支持 单独 的 ASID， 每 次 选择 一 个 页 表 时 (例如 ， 上 下 文 切 换 时 )，TLB 就 
应 被 刷新 ( flush) (或 删除 )， 以 确保 下 一 个 进程 不 会 使 用 错误 的 地 址 转换 。 否 则 ，TLB 内 可 
能 有 旧 的 条 目 ， 它 们 包含 有 效 的 页 码 地址 ， 但 有 从 上 一 个 进程 遗留 下 来 的 不 正确 或 无 效 的 物 
理 地 址 。 

在 TLB 中 查找 到 感 兴趣 页 码 的 次 数 的 百分比 称 为 命中 率 (hit ratio), 80% 的 命中 率 意 
味 着 ， 有 80% 的 时 间 可 以 在 TLB 中 找到 所 需 的 页 码 。 如 果 需 要 100ns 来 访问 内 存 ， 那 么 
当 页 码 在 TLB 中 时 ， 访 问 映 射 内 存 需 要 100ns。 如 果 不 能 在 TLB 中 找到 ， 那 么 应 先 访问 位 
于 内 存 中 的 页 表 和 帧 码 (100ns)， 并 进而 访问 内 存 中 的 所 需 字 节 (100ns)， 这 总 共 要 花费 
200ns。( 这 里 假设 页 表 查 找 只 需要 一 次 内 存 访问 ,但 是 它 可 能 需要 多 次 ， 后面 会 谈 到 。) 为 了 
求 得 有 效 内 存 访问 时 间 (effective memory-access time)， 需 要 根据 概率 来 进行 加 权 : 

有 效 访问 时 间 = 0.80 x 100 + 0.20 x 200 = 120ns 
对 于 本 例 ， 平 均 内 存 访问 时 间 多 了 20% (从 100 一 120ns)。 
对 于 99% 的 命中 率 ， 这 是 更 现实 的 ， 我 们 有 
有 效 访问 时 间 =0.99x100+0.01x200= 101ns 
这 种 命中 率 的 提高 只 多 了 1% 的 访问 时 间 。 

如 前 所 述 ， 现 代 CPU 可 能 提供 多 级 TLB。 因 此 ， 现 代 CPU 的 访问 时 间 的 计算 ， 比 上 
面 的 例子 更 为 复杂 。 例 如 ，Intel Core i7 CPU 有 一 个 128 指令 条 目的 LI TLB 和 64 数据 条 
Any Li TLB。 当 L1 未 命中 时 ，CPU 花费 6 个 周期 来 检查 L2 的 TLB 的 512 条目。L2 的 未 
命中 意味 着 ，CPU 需要 通过 内 存 的 页 表 条 件 来 查找 相关 的 帧 地 址 ， 这 可 能 需要 数 百 个 周期 ， 
或 者 通过 中 断 操作 系统 以 完成 它 的 工作 。 

这 种 系统 的 分 页 开销 的 完整 性 能 分 析 ， 需 要 关于 每 个 TLB 层次 的 命中 率 信 息 。 然 而 ， 
从 这 可 以 看 到 一 条 通用 规律 ， 硬 件 功 能 对 内 存 性 能 有 着 显著 的 影响 ， 而 操作 系统 的 改进 (如 
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分 页 ) 能 导致 硬件 的 改进 并 反 过 来 受 其 影响 。 在 第 9 章 ， 我 们 将 进一步 探讨 命中 率 对 TLB 
的 影响 。 

TLB 是 一 个 硬件 功能 ， 因 此 操作 系统 及 其 设计 师 似 乎 不 必 关 心 。 但 是 设计 师 需 要 了 解 
TLB 的 功能 和 特性 ， 它 们 因 硬 件 平台 的 不 同 而 不 同 。 为 了 优化 运行 ， 给 定 平台 的 操作 系统 
设计 应 根据 平台 的 TLB 设计 来 实现 分 页 。 同 样 ，TLB 设计 的 改变 (例如 ， 在 多 代 Intel CPU 
之 间 ) 可 能 需要 调整 操作 系统 的 分 页 实现 。 


8.5.3 保护 


分 页 环境 下 的 内 存 保护 是 通过 与 每 个 帧 关联 的 保护 位 来 实现 的 。 通 常 ， 这 些 位 保存 在 页 
表 中 。 

用 一 个 位 可 以 定义 一 个 页 是 可 读 可 写 或 只 可 读 。 每 次 内 存 引用 都 要 通过 页 表 ， 来 查找 正 
确 的 帧 码 ; 在 计算 物理 地 址 的 同时 ， 可 以 通过 检查 保护 位 来 验证 有 没有 对 只 可 读 页 进行 写 操 
作 。 对 只 读 页 进行 写 操作 会 向 操作 系统 产生 硬件 陷阱 或 内 存 保护 冲突 )。 

我 们 可 轻松 扩展 这 种 方法 ， 以 提供 更 好 的 保护 级 别 。 我 们 可 以 创建 硬件 来 提供 只 读 、 读 
写 或 只 执行 保护 ; 或 者 ， 通 过 为 每 种 类 型 的 访问 提供 单独 的 保护 位 ,我们 可 以 允许 这 些 访 问 
的 任何 组 合 。 非 法 访问 会 陷 人 操作 系统 。 

还 有 一 个 位 通常 与 页 表 中 的 每 一 条 目 相关 联 : BR - 无效 位 (valid-invalid bit)。 当 该 位 
为 有 效 时 ， 该 值 表 示 相 关 的 页 在 进程 的 逻辑 地 址 空间 内 ， 因 此 是 合法 (或 有 效 ) 的 页 。 当 该 
位 为 无 效 时 ， 该 值 表示 相关 的 页 不 在 进程 的 锡 辑 地 址 空间 内 。 通 过 使 用 有 效 - 无 效 位 ， 非 法 
地 址 会 被 捕捉 到 。 操 作 系统 通过 对 该 位 的 设置 ， 可 以 允许 或 不 允许 对 某 页 的 访问 。 

例如 ， 对 于 14 位 地 址 空间 (0 ~ 16383) 的 系统 ， 假 设 有 一 个 程序 ， 它 的 有 效 地 址 空间 
为 0 一 10468。 如 果 页 的 大 小 为 2KB， 那 么 页 表 如 图 8.15 所 示 。 页 0、1、2、3、4 和 5 的 
地 址 可 以 通过 页 表 正 常 映射 。 然 而 ， 如 果 试 图 产生 页 表 6 或 7 内 的 地 址 时 ， 则 会 发 现 有 效 - 
无 效 位 为 无 效 ， 这 样 操作 系统 就 会 捕捉 到 这 一 非法 操作 (无 效 页 引用 )。 


00000 Wi ”有效 -无 效 位 


10468 
12287 





图 8-15 页 表 的 有 效 位 (v) 或 无 效 位 (i) 
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注意 ， 这 种 方法 也 产生 了 一 个 问题 。 由 于 程序 的 地 址 只 到 10468， 所 以 任何 超过 该 地 址 
的 引用 都 是 非法 的 。 不 过 ， 由 于 对 页 5 的 访问 是 有 效 的 ， 因 此 到 12287 为 止 的 地 址 都 是 有 效 
的 。 只 有 12288 ~ 16383 的 地 址 才 是 无 效 的 。 这 个 问题 是 由 于 页 大 小 为 2KB 的 原因 ， 也 反 
映 了 分 页 的 内 部 碎片 。 

一 个 进程 很 少 会 使 用 它 的 所 有 地 址 空间 。 事 实 上 ， 许 多 进程 只 用 到 地 址 空间 的 小 部 分 。 
对 这 些 情 况 ， 如 果 为 地 址 范围 内 的 所 有 页 都 在 页 表 中 建立 一 个 条 目 ， 这 将 是 非常 浪费 的 。 表 
中 的 大 多 数 并 不 会 被 使 用 ， 却 占用 可 用 的 地 址 空间 。 有 的 系统 提供 硬件 ， 如 页 表 长 度 寄存 器 
( Page-Table Length Register, PTLR) 来 表示 页 表 的 大 小 ， 该 寄存 器 的 值 可 用 于 检查 每 个 四 
辑 地 址 以 验证 其 是 否 位 于 进程 的 有 效 范围 内 。 如 果 检 测 无 法 通过 ， 则 会 被 操作 系统 捕捉 到 。 


8.5.4 共享 页 


分 页 的 优点 之 一 是 可 以 共享 公共 代码 。 对 于 分 时 环境 ， 这 种 考虑 特别 重要 。 假 设 一 个 文 持 
40 个 用 户 的 系统 ， 每 个 都 执行 一 个 文本 编辑 器 。 如 果 该 文本 编辑 器 包括 150KB 的 代码 及 50KB 
的 数据 空间 ， 则 需要 8000KB 来 支持 这 40 个 用 户 。 如 果 代 码 是 可 重 入 代码 (reentrant code) 或 
纯 代码 (pure code)， 则 可 以 共享 ， 如 图 8-16 所 示 。 这 里 ， 有 3 个 进程 ， 它 们 共享 3 页 的 编辑 
器 ， 这 里 每 页 大 小 为 50KB (为 了 简化 图 ， 采 用 了 大 页 面 )。 每 个 进程 都 有 它 自 己 的 数据 页 。 


LT] 
P 的 页 表 






图 8-16 分 页 环境 的 代码 共享 


可 重 入 代码 是 不 能 自我 修改 的 代码 : 它 在 执行 期 间 不 会 改变 。 因 此 ， 两 个 或 更 多 个 进程 
可 以 同时 执行 相同 代码 。 每 个 进程 都 有 它 自己 的 寄存 器 副本 和 数据 存储 ， 以 便 保存 进程 执行 
的 数据 。 当 然 ， 两 个 不 同 进程 的 数据 不 同 。 

在 物理 内 存 中 ， 只 需 保 存 一 个 编辑 器 的 副本 。 每 个 用 户 的 页 表 映 射 到 编辑 器 的 同一 
物理 副本 ， 但 是 数据 页 映射 到 不 同 的 帧 。 因 此 ， 为 支持 40 个 用 户 ， 只 需 一 个 编辑 器 副本 
(150KB )， 再 加 上 40 个 用 户 数 据 空 间 50KB， 总 的 需求 空间 为 2150KB 而 非 8000KB ， 这 个 
节省 还 是 很 大 的 。 

其 他 大 量 使 用 的 程序 也 可 以 共享 ， 如 编译 器 、 窗 口 系统 、 运 行 时 库 、 数 据 库 系统 等 。 为 
了 共享 ， 代 码 应 可 重信 。 共 享 代码 的 只 读 属 性 不 应 由 代码 的 正确 性 来 保证 ; 而 应 由 操作 系统 
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来 强制 实现 。 

系统 内 进程 之 间 的 内 存 共享 ， 类 似 于 通过 线程 共享 同一 任务 的 地 址 空间 (如 第 4 章 所 
述 )。 此 外 ， 回 想 一 下 ， 在 第 3 章 中 我 们 将 共享 内 存 用 于 进程 间 的 通信 。 有 的 操作 系统 通过 
共享 页 来 实现 共享 内 存 。 

除了 人 允许 多 个 进程 共享 相同 的 物理 页 ， 按 页 来 组 织 内 存 还 提供 了 许多 其 他 优点 。 第 9 章 
将 会 讨论 其 他 优点 。 


8.6 页 表 结 构 
本 节 我 们 将 探讨 组 织 页 表 的 一 些 最 常用 技术 ， 包 括 分 层 分 页 、 哈 希 页 表 和 倒置 页 表 。 


8.6.1 分 层 分 页 


大 多 数 现代 计算 机 系统 支持 大 逻辑 地 址 空间 ( 22 一 2%)。 在 这 种 情况 下 ， 页 表 本 身 可 
以 非常 大 。 例 如 ,假设 具有 32 位 逻辑 地 址 空间 的 一 个 计算 机 系统 。 如 果 系 统 的 页 大 小 为 
4KB (22 )， 那 么 页 表 可 以 多 达 100 万 的 条 目 〈222/22 )。 假 设 每 个 条 目 有 4 字 节 ， 那 么 每 个 
进程 需要 4MB 物理 地 址 空间 来 存储 页 表 本 身 。 显 然 ， 我 们 并 不 想 在 内 存 中 连续 地 分 配 这 个 
页 表 。 这 个 问题 的 一 个 简单 解决 方法 是 将 页 表 划 分 为 更 小 的 块 。 完 成 这 种 划分 有 多 个 方法 。 

一 种 方法 是 使 用 两 层 分 页 算法 ， 就 是 将 页 表 再 分 页 (图 8-17 )。 例 如 ， 再 次 假设 一 个 系 
统 ， 具 有 32 位 逻辑 地 址 空间 和 4K 大 小 的 页 。 一 个 逻辑 地 址 被 分 为 20 位 的 页 码 和 12 位 的 
页 偏 移 。 因 为 要 对 页 表 进 行 再 分 页 ， 所 以 该 页 码 可 分 为 10 位 的 页 码 和 10 位 的 页 偏 移 。 这 
样 ， 一 个 逮 辑 地 址 就 分 为 如 下 形式 : 





图 8-17 两 级 页 表 方 案 
其 中 pi 是 用 来 访问 外 部 页 表 的 索引 ,而 ps 是 内 部 页 表 的 页 偏 移 。 采 用 这 种 结构 的 地 址 转 
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换 方法 如 图 8-18 所 示 。 由 于 地 址 转换 由 外 向 内 ， 这 种 方案 也 称 为 向 前 映射 页 表 ( forward- 
mapped page table), 





图 8-18 两 级 32 位 分 页 架构 的 地 址 转换 


考虑 一 个 经 典 系 统 VAX 的 内 存 管理 。VAX 是 数字 设备 公司 (Digital Equipment Corporation, 
DEC) 的 小 型 机 。 从 1977 年 到 2000 年 ，VAX 是 最 受 欢迎 的 小 型 机 。VAX 架构 支持 两 级 分 页 的 
一 种 变 体 。VAX 是 一 个 32 位 的 机 器 ， 它 的 页 大 小 为 512 字 节 。 进 程 的 逻辑 地 址 空间 分 为 4 个 
区 ， 每 个 区 为 2 字 节 。 每 个 区 表示 一 个 进程 的 逻辑 地 址 空间 的 不 同 部 分 。 逻 辑 地 址 的 头 两 个 
高 位 表示 适当 的 区 ， 接 下 来 的 21 位 表示 区 内 的 页 码 ， 最 后 的 9 位 表示 所 需 的 页 内 偏 移 。 通 过 
这 种 分 页 方式 ， 操 作 系 统 可 以 仅 当 进程 需要 时 才 使 用 某 些 区 。 虚 拟 地 址 空间 的 有 的 区 经 常 根本 
未 使 用 ， 多 层 页 表 也 没有 这 些 空间 的 条 目 ， 进 而 大 大 减少 了 存储 虚伪 内 存 数据 结构 的 所 需 内 存 。 

VAX 架构 的 一 个 地 址 如 下 : 





其 中 s 表示 区 号 , p 是 页 表 的 索引 ,而 d 是 页 内 偏 移 。 即 使 采用 此 方法 ,一 个 VAX 进程 如 
使 用 一 个 区 ， 单 层 页 表 的 大 小 为 2" x 4B = 8MB。 为 了 进一步 减少 主 存 的 使 用 ，VAX 对 用 户 
进程 的 页 表 进 行 分 页 。 

对 于 64 位 的 逻辑 地 址 空间 的 系统 ， 两 层 分 页 方案 就 不 再 适合 。 为 了 说 明 这 一 点 ,假设 
系统 的 页 面 大 小 为 4KB ( 2”)。 这 时 ， 页 表 可 由 多 达 2” 个 条 目 组 成 。 如 果 采 用 两 层 分 页 ， 
那么 内 部 页 表 可 方便 地 定 为 一 页 长 ,或 包括 2" 个 4 字 节 的 条 目 。 地 址 形式 如 下 图 所 示 : 


aS eT Ca 





外 部 页 表 有 2” 个 条 目 , BQN 字 节 。 避 免 这 样 一 个 大 页 表 的 显而易见 的 方法 是 ， 将 外 
部 页 表 再 进一步 细 分 。( 这 种 方法 也 可 用 于 32 位 处 理 器 ， 以 增加 灵活 性 和 有 效 性 。) 

外 部 页 表 的 划分 有 很 多 方法 。 例 如 ， 我 们 可 以 对 外 部 页 表 再 分 页 ， 进 而 得 到 三 层 分 页 方 
案 。 假 设 外 部 页 表 由 标准 大 小 的 页 组 成 《2 "个 条 目 或 者 2 字 节 )。 这 时 ，64 位 地 址 空间 仍 
然 很 大 : 


第 二 外 部 页 面 。 外 部 页 面 内 部 页 面 TU 
Ee nr ais 
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外 部 页 表 的 大 小 仍然 为 2* 字 节 ( 16GB)。 

下 一 步 是 四 层 分 页 方案 ， 这 里 第 二 级 的 外 部 页 表 本 身 也 被 分 页 ， 等 等 。 为 了 转换 每 个 逻 
辑 地 址 ，64 位 的 UltraSPARC 将 需要 7 个 级 别 的 分 页 ， 如 此 多 的 内 存 访 问 是 不 可 取 的 。 从 这 
个 例子 可 以 看 出 ， 对 于 64 位 的 架构 ， 为 什么 分 层 页 表 通 常 被 认为 是 不 适当 的 。 


8.6.2 RANK 


处 理 大 于 32 位 地 址 空间 的 常用 方法 是 使 用 哈 希 页 表 (hashed page table)， 采 用 虚拟 页 码 
作为 哈 希 值 。 哈 希 页 表 的 每 一 个 条 目 都 包括 一 个 链表 ， 该 链表 的 元 素 哈 希 到 同一 位 置 (该 链 
表 用 来 解决 处 理 碰 撞 )。 每 个 元 素 由 三 个 字段 组 成 : 1 ) 虚拟 页 码 ，2 ) 映射 的 帧 码 ，3 ) 指向 
链表 内 下 一 个 元 素 的 指针 。 

该 算法 工作 如 下 : 虚拟 地 址 的 虚拟 页 码 哈 希 到 哈 希 表 。 用 虚拟 页 码 与 链表 内 的 第 一 个 元 
素 的 第 一 个 字段 相 比较 。 如 果 匹 配 ， 那么 相应 的 帧 码 〈 第 二 个 字段 ) 就 用 来 形成 物理 地 址 ; 
如 果 不 匹 配 ， 那 么 与 链表 内 的 后 续 节 点 的 第 一 个 字段 进行 比较 ， 以 查找 匹配 的 页 码 。 该 方案 
如 图 8-19 所 示 。 





图 8-19” 哈 希 页 表 


已 提出 用 于 64 位 地 址 空间 的 这 个 方案 的 一 个 变 体 。 此 变 体 采用 聚 簇 页 表 (clustered page ta- 
ble)， 类 似 于 哈 希 页 表 ; 不 过 ， 哈 希 表 内 的 每 个 条 目 引 用 多 个 页 (例如 16) 而 不 是 单个 页 。 
因此 ， 单 个 页 表 条 目 可 以 映射 到 多 个 物理 帧 。 聚 复 页 表 对 于 稀 朴 (sparse) 地 址 空间 特别 有 
用 ， 这 里 的 引用 是 不 连续 的 并 且 散 布 在 整个 地 址 空间 中 。 


8.6.3 倒置 页 表 


通常 ， 每 个 进程 都 有 一 个 关联 的 页 表 。 该 进程 所 使 用 的 每 个 页 都 在 页 表 中 有 一 项 (或 者 
每 个 虚拟 页 都 有 一 项 ， 不 管 后 者 是 否 有 效 )。 这 种 表示 方式 比较 自然 ， 因 为 进程 是 通过 虚拟 
地 址 来 引用 页 的 。 操 作 系 统 应 将 这 种 引用 转换 成 物理 内 存 的 地 址 。 由 于 页 表 是 按 虚拟 地 址 排 
序 的 ， 操 作 系 统 可 计算 出 所 对 应 条 目 在 页 表 中 的 位 置 ， 可 以 直接 使 用 该 值 。 这 种 方法 的 缺点 
之 一 是 ， 每 个 页 表 可 能 包含 数 以 百 万 计 的 条 目 。 这 些 表 可 能 需要 大 量 的 物理 内 存 ， 以 跟踪 其 
他 物理 内 存 是 如 何 使 用 的 。 

为 了 解决 这 个 问题 ， 我 们 可 以 使 用 倒置 页 表 ( inverted page table)。 对 于 每 个 真正 的 内 
存 页 或 帧 ， 倒 置 页 表 才 有 一 个 条 目 。 每 个 条 目 包 含 保 存在 真正 内 存 位 置 上 的 页 的 虚拟 地 址 ， 
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以 及 拥有 该 页 进程 的 信息 。 因 此 ， 整 个 系统 只 有 一 个 页 表 ， 并且 每 个 物理 内 存 的 页 只 有 一 条 
相应 的 条 目 。 图 8-20 显示 了 倒置 页 表 的 工作 原理 ; 请 与 图 8-10 (显示 标准 页 表 工 作 原理 ) H 
行 比较 。 由 于 一 个 倒置 页 表 通 常 包含 多 个 不 同 的 映射 物理 内 存 的 地 址 空间 ,通常 要 求 它 的 每 
个 条 目 保存 一 个 地 址 空间 标识 符 ( 8.5.2 节 )。 地 址 空间 标识 符 的 保存 确保 了 ， 具 体 进 程 的 每 
个 逻辑 页 可 映射 到 相应 的 物理 帧 。 采 用 倒置 页 表 的 系统 包括 64 位 UltraSPARC 和 PowerPC. 





图 8-20 倒置 页 表 


为 了 说 明 这 种 方法 ， 这 里 描述 一 种 用 于 IBM RT 的 倒置 页 表 的 简化 版 本 。IBM 是 最 早 
采用 倒置 页 表 的 大 公司 : 从 IBM System 38、RS/6000， 到 现代 的 IBM Power CPU, X} IBM 
RT， 系 统 内 的 每 个 虚拟 地 址 为 一 个 三 元 组 : 

CE id, HE, mE) 
每 个 倒置 页 表 条 目 为 二 元 组 《进程 it， 页 码 )， 这 里 进程 id 用 来 作为 地 址 空间 的 标识 符 。 当 
发 生 内 存 引 用 时 ， 由 《进程 id， 页 码 组 成 的 虚拟 地 址 被 提交 到 内 存 子 系统 。 然 后 ， 搜 索 倒 
置 页 表 来 寻找 匹配 。 如 果 找 到 匹配 条 目 ， 如 条 目 i， 则 生成 物理 地 址 ( i， 偏 移 、>。 如 果 找 不 
到 匹配 ， 则 为 非法 地 址 访问 。 

虽然 这 种 方案 减少 了 存储 每 个 页 表 所 需 的 内 存 空间 ， 但 是 它 增 加 了 由 于 引用 页 而 查找 
页 表 所 需 的 时 间 。 由 于 倒置 页 表 是 按 物理 地 址 来 排序 的 ， 而 查找 是 根据 虚拟 地 址 的 ， 因 此 查 
找 匹 配 可 能 需要 搜索 整个 表 。 这 种 搜索 需要 很 长 时 间 。 为 了 解决 这 个 问题 ， 可 以 使 用 一 个 哈 
希 表 (如 8.6.2 节 所 述 )， 以 将 搜索 限制 在 一 个 或 最 多 数 个 页 表 条 目 。 当 然 ， 每 次 访问 哈 希 表 
也 增加 了 一 次 内 存 引 用 ， 因 此 每 次 虚拟 地 址 的 引用 至 少 需要 两 个 内 存 读 : 一 个 用 于 哈 希 表 条 
目 ， 另 一 个 用 于 页 表 。( 记 住 : 在 搜索 哈 希 表 之 前 ， 先 搜索 TLB ， 这 可 改善 性 能 。) 

采用 倒置 页 表 的 系统 在 实现 共享 内 存 时 会 有 困难 。 共 享 内 存 的 通常 实现 为 ， 将 多 个 虚拟 
地 址 (共享 内 存 的 每 个 进程 都 有 一 个 虚拟 地 址 ) 映射 到 一 个 物理 地 址 。 这 种 标准 的 方法 不 能 
用 于 倒置 页 表 ， 因 为 每 个 物理 页 只 有 一 个 虚拟 页 条 目 ， 一 个 物理 页 不 可 能 有 两 个 (或 多 个 ) 
共享 的 虚拟 地 址 。 解 决 这 个 问题 的 一 个 简单 技术 是 ， 只 人 允许 页 表 包 含 一 个 虚拟 地 址 到 共享 物 
理 地 址 的 映射 。 这 意味 着 ， 对 未 映射 的 虚拟 地 址 的 引用 会 导致 页 错误 。 


8.6.4 Oracle SPARC Solaris 
以 一 个 现代 的 64 位 CPU 和 与 其 紧密 集成 并 提供 低 开销 虚拟 内 存 的 操作 系统 为 例 ， 来 进 
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43. Solaris 运行 于 SPARC 处 理 器 上 ， 是 一 个 真正 64 位 的 操作 系统 ; 它 需 要 通过 多 级 
页 表 来 提供 虚拟 内 存 且 不 会 用 完 所 有 物理 内 存 。 它 的 做 法 有 点 复杂 ， 但 通过 哈 希 表 有 效 地 解 
决 了 问题 。 它 有 两 个 哈 希 表 : 一 个 用 于 内 核 ， 一 个 用 于 所 有 用 户 进程 。 每 个 将 虚拟 内 存 的 内 
存 地 址 映射 到 物理 内 存 。 每 个 哈 希 表 条 目 代表 一 个 已 映射 的 、 连 续 的、 虚拟 内 存 区 域 ; 比 每 
个 条 目 仅 代表 一 页 ， 更 为 有 效 。 每 个 条 目 都 有 一 个 基地 址 和 一 个 表示 页 数 多 少 的 跨度 。 

如 果 每 个 地 址 都 要 搜索 哈 希 表 ， 那 么 虚拟 到 物理 的 转换 时 间 会 太 长 ; 因此 CPU 有 一 个 
TLB ， 它 用 于 保存 转换 表 条 目 (Translation Table Entry，TTE)， 以 便 进 行 快速 硬件 查找 。 这 
些 TTE 缓存 驻 留 在 一 个 转换 存储 缓冲 区 (Translation Storage Buffer，TSB )， 其 中 包括 最 近 
访问 页 的 有 关 条 目 。 当 引用 一 个 虚拟 地 址 时 ， 硬 件 搜索 TLB 以 进行 转换 。 如 果 没 有 找到 ， 
硬件 搜索 内 存 中 的 TSB， 以 查找 对 应 于 导致 查找 虚拟 地 址 的 TTE。 这 种 TLB 查找 (TLB 
walk) 功能 常见 于 现代 CPU, WR TSB 中 找到 了 匹配 ，CPU 将 TSB 条 目 复 制 到 TLB， 进 而 
完成 内 存 转 换 。 如 果 TSB 中 未 找到 匹配 ， 则 中 断 内 核 ， 以 搜索 哈 希 表 。 然 后 ， 内 核 从 相应 
的 哈 希 表 中 创建 一 个 TTE， 并 保存 到 TSB 中 ; 而 CPU 内 存 管理 单元 会 通过 TSB 自动 加 载 
TLB。 最 后 ， 中 断 处 理 程序 将 控制 返回 到 MMU， 完 成 地 址 转换 ， 获 得 内 存 中 的 字 节 或 字 。 


8.7 例子 : Intel 32 位 与 64 位 体系 结构 


ZER, Inte 芯片 架构 主宰 了 个 人 电脑 。16 位 Intel 8086 发 布 于 20 世纪 70 4E (RK; 
之 后 不 久 ， 另 一 款 16 位 芯片 ，Intel 8088 发 布 了 ， 它 作为 最 初 IBM PC 的 芯片 而 闻名 。8086 
芯片 和 8088 芯片 都 是 基于 分 段 架 构 的 。 后 来 ，Intel 又 发 布 了 一 系列 的 32 位 芯片 的 IA-32， 
包括 32 位 奔腾 处 理 器 家 族 。IA-32 架构 支持 分 页 和 分 段 。 最 近 ，Intel 也 发 布 了 一 系列 基于 
x86-64 架构 的 64 位 芯片 。 目 前 ， 所 有 最 受 欢 迎 的 PC 操作 系统 都 可 在 Intel 芯片 上 运行 ， 包 
括 Windows, Mac OS X 和 Linux (当然 ，Linux 也 运行 在 其 他 几 个 架构 上 )。 然 而 ， 值 得 注 
意 的 是 ，Intel 的 优势 并 没有 草 延 到 移动 系统 ，ARM 架构 目前 享有 相当 大 的 成 功 ( 见 8.8 节 )。 

本 节 讨 论 IA-32 和 x86-64 架构 的 地 址 转换 。 然 而 ， 在 讨论 之 前 ， 重 要 的 是 要 注意 ， 因 
为 多 年 来 ， 英特尔 已 经 发 布 了 多 个 版 本 及 其 变形 ， 我 们 不 能 提供 所 有 芯片 的 内 存 管理 结构 的 
一 个 完整 描述 。 我 们 也 不 能 提供 所 有 CPU 的 细节 ， 因 为 这 些 信息 最 好 留 给 计算 机 体系 结构 
的 书籍 。 因 此 ， 我 们 只 讨论 这 些 Intel CPU 内 存 管理 的 主要 概念 。 


8.7.1 1IA-32 架构 


IA-32 系统 的 内 存 管理 可 分 为 两 个 部 分 一 一 分 段 和 分 页 ， 工 作 如 下 : CPU 生成 逻辑 地 
址 ， 并 交 给 分 段 单元 。 分 段 单元 为 每 个 逻辑 地 址 生成 一 个 线性 地 址 。 然 后 ， 线 性 地 址 交 给 分 
页 单元 ， 以 生成 内 存 的 物理 地 址 。 因 此 ， 分 段 和 分 页 单元 组 成 了 内 存 管 理 单元 (MMU), X 
个 方案 如 图 8-21 所 示 。 









图 8-21 IA-32 的 逻辑 地 址 到 物理 地 址 的 转换 


8.7.1.1 1A-32 分 段 
IA-32 架构 允许 一 个 段 的 大 小 最 多 可 达 4GB， 每 个 进程 的 段 的 最 多 数量 为 16K。 进 程 
的 逻辑 地 址 空间 分 为 两 部 分 。 第 一 个 部 分 最 多 由 8K 段 组 成 ， 这 部 分 为 单个 进程 私有 。 第 二 
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个 部 分 最 多 由 8K 段 组 成 ， 这 部 分 为 所 有 进程 所 共享 。 第 一 个 部 分 的 信息 保存 在 局 部 描述 
FR (Local Descriptor Table, LTD) 中 ， 第 二 个 部 分 的 信息 保存 在 全 局 描述 符 表 (Global 
Descriptor Table, GDT) 中 。LDT 和 GDT 的 每 个 条 目 由 8 字 节 组 成 ， 这 包括 一 个 段 的 详细 
信息 ， 如 基 位 置 和 段 界限 等 。 

人 逻辑 地 址 为 二 元 组 (选择 器 ， 偏 移 )， 选 择 器 是 一 个 16 位 的 数 : 





其 中 s RRRS, g 表示 段 是 在 GDT 还 是 在 LDT H, p 表示 保护 信息 。 偏 移 是 一 个 32 位 的 
数 ， 用 来 表示 字 节 (或 字 ) 在 段 内 的 位 置 。 

CPU 有 6 个 段 寄 存 器 ， 允 许 一 个 进程 可 以 同时 访问 6 个 段 。 它 还 有 6 个 8 字 节 微 程序 
寄存 器 ， 用 来 保存 相应 的 来 自 于 LDT 或 GDT 的 描述 符 。 这 一 缓存 使 得 Pentium 不 必 在 每 次 
引用 内 存 时 都 从 内 存 中 读 取 描述 符 。 

IA-32 的 线性 地 址 为 32 位 长 ， 按 如 下 方式 来 形成 : 段 寄 存 器 指向 LDT 或 GDT 中 的 适 
当 条 目 ， 段 的 基地 址 和 界限 信息 用 来 产生 线性 地 址 
(linear address)。 首 先 ， 界 限 用 来 检查 地 址 的 合法 
性 。 如 果 地 址 无 效 ， 则 产生 内 存 出 错 ， 导 致 陷 人 操 
作 系 统 。 如 果 有 效 ， 则 偏 移 值 就 与 基地 址 的 值 相 
加 ,产生 32 位 的 线性 地 址 ， 如 图 8-22 所 示 。 下 面 
这 小 节 将 讨论 分 页 单元 如 何 将 线性 地 址 转换 成 物理 
地 址 。 
8.7.1.2 1A-32 分 页 

IA-32 架构 的 页 可 为 4KB 或 4MB。 对 于 4KB 
的 页 ，IA-32 采用 二 级 分 页 方法 ， 其 中 32 位 线性 地 图 8-22 IA-32 分 自 
址 的 划分 如 下 : 





这 种 架构 的 地 址 转换 方案 类 似 于 图 8-18。IA-32 地 址 转换 的 更 多 细节 如 图 8-23 所 示 。 最 高 
10 位 引用 外 部 页 表 的 条 目 ，IA-32 称 外 层 页 表 为 页 目录 (page directory) ( CR3 寄存 器 指向 当 
前 进程 的 页 目录 )。 页 目录 内 的 条 目 指向 由 线性 地 址 中 间 10 位 索引 的 内 部 页 表 (简称 页 表 )。 
最 后 ， 最 低 的 12 位 (o~ 11) 为 页 表 条 目 指向 的 4KB 页 内 的 偏 移 。 

页 目录 的 条 目 有 一 个 标志 Page_Size ; 如 果 设 置 了 它 ， 表 示 页 帧 的 大 小 为 4MB ， 而 不 
是 标准 的 4KB。 如 果 设 置 了 该 标志 ， 则 页 目录 条 目 会 绕 过 内 层 页 表 而 直接 指向 4MB 的 页 
帧 ， 并 且 线 性 地 址 的 最 低 22 位 指向 4MB 页 帧 内 的 偏 移 。 

为 了 提高 物理 内 存 的 使 用 效率 ，IA-32 的 页 表 可 以 被 交换 到 磁盘 。 因 此 ， 页 目录 的 条 
目 通过 一 个 有 效 位 ， 以 表示 该 条 目 所 指 的 页 表 是 在 内 存 里 还 是 在 磁盘 上 。 如 果 页 表 在 磁盘 
上 ， 则 操作 系统 可 通过 其 他 31 位 来 表示 页 表 的 磁盘 位 置 。 之 后 ， 可 根据 需要 将 页 表 调 人 
内 存 。 

随 着 软件 开发 人 员 逐 步 发 现 32 位 架构 的 4GB 内 存 限制 ，Intel 通过 页 地 址 扩展 (Page 
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Address Extension，PAE)， 以 便 人 允许 访 问 大 于 4GB 的 物理 地 址 空间 。 引 入 PAE 支持 的 根本 特 
点 是 ， 从 两 级 的 分 页 方案 (如 图 8-23 所 示 ) 变 成 了 三 级 方案 ， 后 者 的 最 高 两 位 用 于 指向 页 目 
录 指 针 表 (page directory pointer table), 。 图 8-24 
为 4KB 页 的 PAE 系统 。(PAE 还 支持 2MB 的 页 。) 

PAE 将 页 目录 和 页 表 的 条 目 大 小 从 32 位 增 
大 到 64 位 。 这 让 页 表 和 页 帧 的 基 址 从 20 位 增 
大 到 24 人 位。 结合 12 位 的 偏 黎 ， 加 上 了 1A-32 
PAE 的 支持 可 增加 地 址 空间 到 36 位， 最 多 可 支 
持 64GB 的 物理 内 存 。 重 要 的 是 要 注意 ， 需 要 操 
作 系 统 的 支持 才 可 使 用 PAE。Linux 和 Mac OS X 
都 支持 PAE。 不 过 ，Windows 32 位 的 桌面 操作 
系统 即使 在 PAE 启用 时 ， 仍 然 只 支持 4GB 的 物 
理 内 存 。 





HER ae, 
8.7.2 x86-64 31 22 21 0 
Intel 开发 64 位 架构 的 经 历 很 有 趣 。 最 初 的 mans IASON 


架构 为 IA-64 (后 来 称 为 安 腾 ( Itanium)), 但 并 没有 被 广泛 采用 。 同 时 ， 另 一 家 芯片 制造 商 
AMD 也 开始 开发 称 为 x86-64 的 64 位 架构 ， 它 扩展 了 现 有 的 IA-32 指令 集 。x86-64 支持 更 
大 的 逻辑 和 物理 的 地 址 空间 ， 也 具有 一 些 其 他 优点 。 过 去 ，AMD 根据 Intel 架构 来 开发 芯片 ; 
但 现在 角色 互 换 了 ，Intel 采用 了 AMD 的 x86-64 架构 。 当 讨论 这 个 架构 时 ， 我 们 不 采用 商业 
名 称 AMD64 和 Intel 64， 而 采用 更 一 般 的 术语 x86-64。 


页 目录 页 表 偏 移 





CR3 cra rei A al 
寄存 器 页 目录 指针 表 页 目录 页 表 
图 8-24 页 地 址 扩展 


支持 64 位 的 地 址 空间 意味 着 ， 可 寻 址 的 内 存 达 到 惊人 的 24 字 节 ， 即 大 于 16 艾 字 节 。 
然后 ， 即 使 64 位 系统 有 能 力 访问 这 么 多 的 内 存 ， 但 是 实际 上 ， 目 前 设计 的 地 址 表示 远 远 
YF 64 位。 目前 提供 的 x86-64 架构 采用 四 级 分 页 ， 支 持 48 位 的 虚拟 地 址 ， 它 的 页 面 大 小 
可 为 4KB、2MB 或 1GB。 这 种 线性 地 址 的 表示 如 图 8-25 所 示 。 由 于 这 种 寻 址 方案 能 采用 
PAE， 虚 拟 地 址 的 大 小 为 48 位 ， 可 支持 52 位 的 物理 地 址 (4096TB )。 


LL 未 用 | 页 面 映射 级 别 4 | 页 目录 指针 表 | 页 目录 | HK 偏 移 
63 48 47 39 38 30 29 21 20 1211 0 


8-25 x86-64 线性 地 址 


64 位 计算 
历史 上 告诉 我 们 ， 即 使 内 存 、CPU 速度 、 类 似 的 计算 机 能 力 足以 满足 可 预见 未 来 的 需 
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求 ， 技 术 的 发 展 最 终 会 用 尽 可 用 的 能 力 ， 并 且 我 们 很 快 〈 比 我 们 自 认 为 的 要 旱 ) 会 发 现 
还 会 需要 更 多 的 内 存 或 更 强 的 处 理 能 力 。 什 么 未 来 的 技术 可 能 使 得 64 位 地 址 的 空间 显得 
太 小 ? 


8.8 例子 : ARM 架构 


虽然 Intel 芯片 已 经 占据 了 个 人 计算 机 市 场 超 过 30 年 ， 移 动 设 备 (如 智能 手机 和 平板 
电脑 ) 的 芯片 往往 采用 32 位 的 ARM 处 理 器 。 有 趣 的 是 ，Intel 不 仅 设计 而 且 制 造 芯片 ;而 
ARM 只 设计 它们 ， 并 将 设计 许可 授权 给 芯片 制造 商 。Apple 获得 了 iPhone 和 iPad 等 移动 设 
备 的 授权 ， 多 种 基于 Android 的 智能 手机 也 采用 ARM 处 理 器 。 

32 位 ARM 架构 支持 的 页 面 大 小 如 下 : 

e 4KB 和 16KB 的 页 。 

© IMB 和 16MB 的 页 ( 称 为 段 (section ) ) 。 
系统 使 用 的 分 页 取决 于 所 引用 的 是 页 还 是 段 。 一 级 分 页 用 于 1MB 和 16MB 的 段 ; 二 级 分 页 
用 于 4KB 和 16KB 的 页 。ARM MMU 的 地 址 转换 如 图 8-26 所 示 。 





图 8-26 ARM 的 逻辑 地 址 转换 


ARM 架构 还 支持 两 级 TLB。 在 外 部 ， 有 两 个 微 TLB (micro TLB): 一 个 用 于 数据 ， 另 
一 个 用 于 指令 。 微 TLB 也 支持 ASID。 在 内 部 ， 有 一 个 主 TLB (main TLB)。 地 址 转换 从 微 
TLB 级 开始 。 如 果 没 有 找到 ， 那 么 再 检查 主 TLB。 如 果 仍 未 找到 ， 那 么 最 后 通过 硬件 查找 
页 表 。 


8.9 小 结 


多 道 程 序 操作 系统 的 内 存 管 理 算法 包括 从 简单 的 单 用 户 系统 方案 ， 到 分 段 和 分 页 的 方 
案 。 决 定 特定 系统 采用 方案 的 最 重要 因素 是 所 提供 的 硬件 支持 。CPU 所 产生 的 每 个 内 存 地 
址 都 应 先进 行 合法 性 检查 ， 然 后 才 可 能 映射 到 物理 地 址 。 检 查 不 能 通过 软件 来 (有效 地 ) 实 
现 ， 因 此 受到 可 用 硬件 的 限制 。 

不 同 的 内 存 管理 算法 (连续 分 配 、 分 页 、 分 段 及 分 页 分 段 组 合 ) 在 许多 方面 都 不 同 。 当 
比较 不 同 内 存 管理 策略 时 ， 需 要 考虑 如 下 几 点 : 
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e 硬件 支持 : 对 单 分 区 和 多 分 区 方案 ， 只 需要 一 个 基地 址 寄存 器 或 一 个 基地 址 - 界限 
地 址 寄存 器 对 就 足够 了 ;而 对 于 分 页 和 分 段 ， 需 要 映射 表 来 定义 地 址 映射 。 

o 性 能 : 随 着 内 存 管理 算法 变 得 更 为 复杂 ， 逮 辑 地 址 到 物理 地 址 的 映射 时 间 也 会 更 长 。 
对 于 简单 的 系统 ， 只 需 对 逻辑 地 址 进行 比较 和 加 法 操作 《这些 操作 较 快 )。 如 果 映 射 
表 通 过 快速 寄存 器 来 实现 ， 那 么 分 页 和 分 段 操作 也 会 很 快 。 然 而 ， 如 果 映 射 表 位 于 
内 存 中 ， 那 么 用 户 内 存 访问 就 大 受 影响 。TLB 可 使 性 能 影响 减 小 到 可 接受 的 水 平 。 

e RE: 如 果 多 道 程 序 的 程度 更 高 ， 那 么 多 道 程 序 系统 的 执行 通常 会 更 有 效 。 给 定 一 
组 进程 ， 通 过 加 载 更 多 进程 到 内 存 ， 可 以 增加 多 道 程序 的 程度 。 为 了 完成 这 个 任务 ， 
应 降低 内 存 浪费 或 碎片 。 采 用 固定 大 小 分 配 单元 《如 单个 分 区 和 分 页 ) 的 系统 会 有 
内 部 碎片 问题 。 采 用 可 变 大 小 分 配 单元 (如 多 个 分 区 和 分 段 ) 的 系统 会 有 外 部 碎片 
问题 。 

© 重 定位 : 外 部 碎片 问题 的 解决 方案 之 一 是 紧缩 。 紧 缩 就 是 在 内 存 中 移动 程序 ， 且 不 
影响 程序 的 运行 。 这 种 方案 要 求 ， 执 行 时 的 逻辑 地 址 可 动态 地 进行 重 定位 。 如 果 只 
能 进行 加 载 时 的 地 址 重 定位 ， 那 么 就 不 能 采用 紧缩 。 

o 交换 : 任何 算法 都 可 加 上 交换 操作 。 进 程 可 以 定时 地 (由 操作 系统 来 定 ， 通 常 由 
CPU 调度 策略 来 决定 ) 从 内 存 交 换 到 外 存 ， 之 后 再 交换 到 内 存 。 这 种 方法 可 允许 更 
多 进程 运行 ， 尽 管 它们 不 能 同时 加 载 到 内 存 。 一 般 来 说 ，PC 操作 系统 支持 分 页 ， 而 
移动 设备 的 操作 系统 则 不 支持 。 

e 共享 : 另 一 个 增加 多 道 程序 程度 的 方法 是 ， 让 不 同 进程 共享 代码 和 数据 。 共 享 通常 

383 要 求 分 页 或 分 段 ， 以 便 共享 较 小 的 信息 分 块 ( 如 页 或 段 )。 在 有 限 内 存 情况 下 ， 共 享 
能 运行 许多 进程 ， 但 是 共享 的 程序 和 数据 应 精心 设计 。 

e 保护 : 如 果 提 供 了 分 页 或 分 段 ， 那 么 用 户 程序 的 不 同 区 域 可 以 声明 为 只 可 执行 的 、 只 
读 的 或 可 读 可 写 的 。 对 于 代码 和 数据 的 共享 ， 这 种 限制 是 必要 的 ; 对 于 程序 设计 的 
常见 错误 ， 能 提供 运行 时 的 简单 检查 。 


习题 

8.1 请 指出 内 部 碎片 与 外 部 碎片 的 区 别 。 

8.2 ”针对 如 下 生成 二 进 制 的 过 程 。 编 译 器 用 于 生成 每 个 模块 的 目标 代码 ， 而 链接 编辑 器 用 于 将 多 个 目 
标 模 块 合并 为 一 个 二 进 制 程序 。 链 接 编辑 器 如 何 改变 指令 和 数据 到 内 存 地 址 的 绑 定 ? 需要 将 什么 
信息 从 编译 器 传递 给 链接 编辑 器 ， 以 协助 链接 编辑 器 完成 内 存 绑 定 任 务 ? 

8.3 给 定 6 个 内 存 分 区 : 300KB, 600KB, 350KB, 200KB, 750KB 和 125KB ( 按 顺 序 )， 分 别 采 用 
首次 适应 、 最 优 适应 、 最 差 适应 算法 ， 如 何 放置 大 小 分 别 为 115KB, 500KB, 358KB, 200KB 和 
375KB ( 按 顺 序 ) 的 进程 ? 根据 它们 使 用 内 存 的 效率 对 算法 进行 排序 。 

8.4 大 多 数 系统 允许 程序 在 执行 时 可 以 为 自己 的 地 址 空间 分 配 更 多 的 内 存 。 程 序 的 堆 段 (heap segment) 
的 数据 分 配 就 是 这 样 一 个 内 存 分 配 的 实例 。 在 下 面 方 案 中 ， 支 持 动态 内 存 分 配 需要 什么 ? 

a. 连续 内 存 分 配 
b. 纯 分 段 
c. 纯 分 页 

8.5 ”针对 以 下 问题 ， 比 较 连 续 内 存 分 配 、 纯 分 段 和 纯 分 页 的 内 存 组 织 方案 : 

a. 外 部 碎片 


8.6 


8.7 
8.8 


8.9 


8.10 
8.11 


8.13 


8.17 


8.18 
8.19 
8.20 
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b. 内 部 碎片 

c. 能 够 跨 进程 共享 代码 

对 于 分 页 系统 ， 进 程 无 法 访问 它 所 不 拥有 的 内 存 。 为 什么 ? 操作 系统 如 何 才能 允许 访问 其 他 的 内 

存 ? 为 什么 应 该 或 不 应 该 ? 

请 解释 为 什么 移动 操作 系统 (如 iOS 和 Android) 不 支持 交换 。 384 

虽然 Android 不 支持 在 引导 磁盘 上 进行 交换 ， 但 是 可 以 通过 另外 的 非 易 失 性 存储 卡 SD 来 设置 交 

换 空间 。 为 什么 Android 不 允许 在 引导 磁盘 上 进行 交换 ， 但 允许 在 辅助 磁盘 上 进行 ? 

针对 地 址 转换 结构 需要 的 内 存量 以 便 将 虚拟 地 址 转换 为 物理 地 址 ， 请 比较 分 页 与 分 段 。 

请 解释 为 什么 使 用 地 址 空间 标识 符 (Address Space Identifier, ASID)» 

许多 系统 的 二 进 制 程序 通常 结构 如 下 : 代码 从 一 个 小 的 固定 虚拟 地 址 (如 0 ) 开始 存储 。 代 码 

段 之 后 是 用 来 存储 程序 变量 的 数据 段 。 当 程序 开始 执行 时 ， 在 虚拟 地 址 空间 的 另 一 端 分 配 堆栈 ， 

并 人 允许 向 更 低 的 虚拟 地 址 方向 增长 。 对 以 下 方案 ， 这 种 结构 的 重要 性 是 什么 ? 

a. 连续 内 存 分 配 

b. 纯 分 段 

c. 纯 分 页 

假设 页 大 小 为 1KB， 以 下 地 址 引用 (以 十 进 制 数 形式 提供 ) 的 页 码 和 偏 移 量 是 多 少 : 

a. 3085 

b. 42 095 

c. 215 201 

d. 650 000 

e. 2 000 001 

BTV 操作 系统 有 一 个 21 (AME Hot, (ER RARKREE, EC RA—+* 16 位 的 物理 地 

址 。 它 也 有 2KB 的 页 面 大 小 。 以 下 每 个 页 表 各 有 多 少 条 目 ? 

a. 传统 的 单 级 页 表 

b. 倒置 页 表 

物理 内 存 的 最 大 数量 是 多 少 ? 

逻辑 地 址 空间 有 256 页 ， 页 大 小 为 4KB BRATS 64 帧 的 物理 内 存 。 

a, 逻辑 地 址 需要 多 少 位 ? 

b. 物理 地 址 需要 多 少 位 ? 385 

假设 一 个 计算 机 系统 具有 32 位 的 逻辑 地 址 和 4KB 的 页 。 系 统 支 持 高 达 512MB 的 物理 内 存 。 以 

下 每 个 页 表 各 有 多 少 条 目 ? 

a. 传统 的 单 级 页 表 

b. 倒置 页 表 

假设 有 一 个 分 页 系统 ， 它 的 页 表 在 内 存 中 。 

a. 如 果 内 存 引 用 需要 50ns， 分 页 内 存 的 引用 需要 多 长 时 间 ? 

b. 如 果 添 加 了 TLB， 并 且 所 有 页 表 引 用 的 75% 可 在 TLB PAR, 那么 内 存 引 用 的 有 效 时 间 是 
多 少 ? (假设 所 查 的 页 表 条 目 在 TLB 中 时 ， 需 要 2ns)。 

为 什么 分 段 和 分 页 有 时 组 合成 一 个 方案 ? 

请 解释 为 什么 使 用 分 段 比 使 用 纯 分 页 更 容易 共享 可 重 人 模块 。 

假设 有 下 面 的 段 表 : 以 下 逻辑 地 址 的 物理 地 址 是 多 少 ? 
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段 基地 址 长 度 
0 219 600 
1 2 300 14 
2 90 100 
3 1 327 580 
4 1 952 96 

a. 0430 

b. 110 

c. 2500 

d. 3400 

e. 4112 


8.21 页 表 分 页 的 目的 是 什么 ? 
8.22 ”针对 VAX 体系 结构 所 采用 的 多 级 分 页 方法 ， 当 用 户 程 序 执行 一 个 内 存 加 载 操作 时 ， 执 行 了 多 少 


内 存 操作 ? 
8.23 比较 一 下 在 处 理 大 型 地 址 空间 时 的 分 段 分 页 方法 与 哈 希 表 方 法 。 在 什么 环境 下 ， 哪 一 种 更 
合适 ? 


8.24 考虑 如 图 8-22 所 示 的 Intel 地 址 转换 方案 : 
a. 描述 Intel Pentium 将 逻辑 地 址 转换 成 物理 地 址 的 所 有 步 又 。 
b. 采用 这 样 复杂 地 址 转换 的 硬件 对 操作 系统 有 什么 好 处 ? 
c. 这 样 的 地 址 转换 系统 有 没有 什么 缺点 ?如 果 有 ， 有 哪些 ?如 果 没 有 ， 为 什么 不 是 每 个 制造 商 
都 使 用 这 种 方案 ? 


编程 题 
8.25 ”假设 有 一 个 系统 具有 32 位 的 虚拟 地 址 和 4KB 的 页 面 。 编 写 一 个 程序 ， 它 的 命令 行 的 输入 参数 
为 虚拟 地 址 (十进制 的 ); 它 的 输出 为 对 应 的 页 码 和 偏 移 。 例 如 ， 你 的 程序 可 按 如 下 运行 : 


./a.out 19986 
它 的 输出 为 


The address 19986 contains: 


page number = 4 
offset = 3602 


编写 这 个 程序 ， 要 求 采 用 适当 的 数据 类 型 以 存储 32 位。 建议 你 采用 unsigned 的 数据 类 型 。 


推荐 读物 


Knuth (1973) 讨论 了 动态 存储 分 配 (2.5 节 )， 并 通过 仿真 发 现 首次 适应 分 配 算法 比 最 优 适应 算 
法 好 。Knuth (1973) 还 讨论 了 “50% 规则 ”。 

分 页 概念 可 归功 于 Atlas 系统 的 设计 者 们 ，Kilbur 等 (1961 ) 和 Howarth 等 (1961) 描述 了 
这 些 。Dennis (1965) 最 早 讨 论 了 分 段 。GE 645 最 先 支持 分 页 分 段 ， 也 是 MULTICS 的 最 初 平台 
(Organick ( 1972 ), Daley 和 Dennis ( 1967 ) ) 。 

Chang 和 Mergen (1988 ) 在 关于 IBM RT 的 存储 管理 的 论文 中 讨论 了 倒置 页 表 。 

Hennessy 和 Patterson ( 2012 ) 解释 了 TLB、Cache、MMU 的 硬件 。Talluri 等 (1995 ) 讨论 了 64 位 
地 址 空间 的 页 表 。Jacob 和 Mudge ( 2001 ) 描述 了 TLB 管理 的 技术 。Fang 等 (2001) 评估 了 大 页 表 的 支持 。 
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http://msdn.microsoft.com/en-us/library/windows/hardware/g¢487512.aspx 提供 了 Windows 系统 的 PAE 
支持 的 讨论 。 
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第 9 章 | 


Operating System Concepts, Ninth Edition 


虚拟 内 存 管理 


第 8 章 讨论 了 计算 机 系统 的 各 种 内 存 管 理 策略 。 所 有 这 些 策略 都 有 相同 的 目标 : 同时 将 
多 个 进程 保存 在 内 存 中 ， 以 便 允 许多 道 程序 。 然 而 ， 这 些 策 略 都 倾向 于 要 求 每 个 进程 在 执行 
之 前 应 完全 处 于 内 存 中 。 

虚拟 内 存 技术 允许 执行 进程 不 必 完 全 处 于 内 存 。 这 种 方案 的 一 个 主要 优点 就 是 ， 程 序 可 
以 大 于 物理 内 存 。 此 外 ， 虚 拟 内 存 将 内 存 抽 象 成 一 个 巨大 的 、 统 一 的 存储 数组 ， 进 而 实现 了 
用 户 看 到 的 逻辑 内 存 与 物理 内 存 的 分 离 。 这 种 技术 使 得 程序 员 不 再 担忧 内 存 容量 的 限制 。 虚 
拟 内 存 还 允许 进程 轻松 共享 文件 和 实现 共享 内 存 。 此 外 ， 它 为 创建 进程 提供 了 有 效 的 机 制 。 
然而 ， 虚 拟 内 存 的 实现 并 不 容易 ， 并 且 使 用 不 当 还 可 能 会 大 大 降低 性 能 。 本 章 以 请 求 调 页 为 
例 来 讨论 虚拟 内 存 ， 并 讨论 其 复杂 性 与 开销 。 

本 章 目 标 

© 讨论 虚拟 内 存 系统 的 优点 。 

© 解释 请 求 调 页 、 页 置换 算法 和 页 帧 分 配 等 概念 。 

。 讨论 工作 集 模型 原理 。 

© 讨论 共享 内 存 和 内 存 映 射 文件 之 间 的 关系 。 

e 讨论 如 何 管理 内 核 内 存 。 


91 背景 


第 8 章 概述 的 内 存 管理 算法 是 必要 的 ， 因 为 有 一 个 基本 要 求 : 执行 的 指令 应 处 于 物理 内 
存 。 满 足 这 一 要 求 的 第 一 种 方法 是 ， 将 整个 逻辑 地 址 空间 置 于 物理 内 存 中 。 动 态 加 载 可 以 帮 
助 缓解 这 种 限制 ， 但 它 通 常 需要 特殊 的 预防 措施 和 程序 员 的 额外 工作 。 

指令 应 处 于 物理 内 存 以 便 执行 的 要 求 ， 似 乎 是 必要 的 和 合理 的 ; 但 它 也 是 有 缺点 的 ， 因 
为 它 将 程序 的 大 小 限制 为 物理 内 存 的 大 小 。 事 实 上 ， 通 过 实际 程序 的 研究 会 发 现 ， 在 许多 情 
况 下 并 不 需要 将 整个 程序 置 于 内 存 中 。 例 如 ， 分 析 以 下 内 容 : 

e 程序 通常 具有 处 理 异常 错误 条 件 的 代码 。 由 于 这 些 错 误 很 少 实际 发 生 ， 所 以 这 些 代 

码 几 乎 从 不 执行 。 
e 数组、 链表 和 表 等 所 分 配 的 内 存量 通常 多 于 实际 需要 值 。 按 100 x 100 个 元 素来 声 
明 的 数组 ， 可 能 实际 很 少 用 到 大 于 10 x 10 个 的 元 素 。 虽 然 汇编 程序 的 符号 表 可 能 有 
3000 个 符号 的 空间 ,但 是 程序 平均 可 能 用 到 的 只 有 不 到 200 个 符号 。 
e 程序 的 某 些 选项 和 功能 可 能 很 少 使 用 。 例 如 ， 美 国政 府 计算 机 的 平衡 预算 程序 多 年 
来 都 没有 使 用 过 。 
即使 在 需要 整个 程序 的 情况 下 ， 也 可 能 并 不 同时 需要 整个 程序 。 分 段 能 够 执行 只 有 部 分 处 于 
内 存 的 程序 ， 可 以 带 来 许多 好 处 : 

© 程序 不 再 受 物理 内 存 的 可 用 量 所 限制 。 用 户 可 以 为 一 个 巨大 的 虚拟 地 址 空间 (virtual- 

address space) 编写 程序 ， 从 而 简化 了 编程 任务 。 
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e 由 于 每 个 用 户 程序 可 占用 较 少 的 物理 内 存 ， 因 此 可 以 同时 运行 更 多 的 程序 ， 进 而 增 
加 CPU 利用 率 和 吞吐 量 ， 但 没有 增加 响应 时 间或 周转 时 间 。 

e 由 于 加 载 或 交换 每 个 用 户 程序 到 内 存 所 需 的 IO 会 更 少 ， 用 户 程序 会 运行 得 更 快 。 
因此 ， 和 运行 不 完全 处 于 内 存 的 程序 将 使 系统 和 用 户 都 受益 。 

虚拟 内 存 (virtual memory) 将 用 户 逻 辑 内 存 与 物理 内 存 分 开 。 这 在 现 有 物理 内 存 有 限 
的 情况 下 ， 为 程序 员 提供 了 巨大 的 虚拟 内 存 〈 如 图 9-1 所 示 )。 虚 拟 内 存 使 得 编程 更 加 容易 ， 
因为 程序 员 不 再 需要 担心 有 限 的 物理 内 存 空间 ， 只 需要 关注 所 要 解决 的 问题 。 

进程 的 虚拟 地 址 空间 ( virtual address space) 就 是 进程 如 何在 内 存 中 存放 的 逻辑 (或 虚 
W) 视图 。 通 常 ， 进 程 从 某 一 逻辑 地 址 (如 地 址 0 ) 开始 ， 连 续 存 放 ， 如 图 9-2 所 示 。 根 据 
第 8 章 所 述 ， 物 理 地 址 可 以 按 帧 来 组 织 ， 并 且 分 配给 进程 的 物理 帧 也 可 以 不 连续 。 这 就 需要 
内 存 管理 单元 (MMU) 将 逻辑 页 映射 到 内 存 的 物理 页 帧 。 


最 大 值 





图 9-1 虚拟 内 存 大 于 物理 内 存 的 图 例 图 9-2 虚拟 地 址 空间 


请 注意 ， 在 图 9-2 中 ， 随 着 动态 内 存 的 分 配 ， 允 许 堆 向 上 生长 。 类 似 地 ， 随 着 子 程 序 的 
不 断 调用 ， 还 允许 堆栈 向 下 生长 。 堆 与 堆栈 之 间 的 巨大 空白 空间 (或 空洞 ) 为 虚拟 地 址 的 一 
部 分 ， 只 有 在 堆 与 堆栈 生长 时 ， 才 需要 实际 的 物理 页 。 包 括 空白 的 虚拟 地 址 空间 称 为 稀 朴 
(sparse) 地 址 空间 。 采 用 稀 玖 地 址 空间 的 优点 是 随 着 程序 的 执行 ， 堆 栈 或 堆 会 生长 或 需要 加 
载 动态 链接 库 (或 共享 对 象 )， 此 时 可 以 填充 这 些 空白 。 

除了 将 逻辑 内 存 与 物理 内 存 分 开外 ， 虚 拟 内 存 允 许 文 件 和 内 存 通过 共享 页 而 为 多 个 进程 
所 共享 ( 8.5.4 节 )。 这 带 来 了 以 下 好 处 : 

e 通过 将 共享 对 象 映射 到 虚拟 地 址 空间 中 ， 系 统 库 可 以 为 多 个 进程 所 共享 。 尽管 
每 个 进程 都 将 库 视 为 其 虚拟 地 址 空间 的 一 部 分 但 是 驻 留 在 物理 内 存 中 的 库 的 
实际 页 可 由 所 有 进程 共享 (图 9-3 )。 通 常 ， 库 按 只 读 方式 映射 到 与 其 链接 的 进程 
空间 。 

e 类 似 地 ， 虚 拟 内 存 允 许 进程 共享 内 存 。 如 第 3 章 所 述 ， 进 程 之 间 可 以 通过 使 用 共享 
内 存 来 进行 通信 。 虚 拟 内 存 允 许 一 个 进程 创建 一 个 内 存 区 域 ， 以 便 与 其 他 进程 共享 。 
共享 这 个 内 存 区 域 的 进程 认为 : 它 是 其 虚拟 地 址 空间 的 一 部 分 ， 而 事实 上 这 部 分 是 
共享 的 ， 如 图 9-3 所 示 。 

e 当 通 过 系统 调用 fork() 创建 进程 时 ， 可 以 共享 页 面 ， 从 而 加 快 进程 创建 。 
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后 面 ， 我 们 将 会 深入 探讨 虚拟 内 存 的 这 些 和 其 他 好 处 。 不 过 首先 ， 我 们 要 讨论 一 下 如 何 采用 
请 求 调 页 来 实现 虚拟 内 存 。 





图 9-3 采用 虚拟 内 存 的 共享 库 


9.2 请求 调 页 


想 一 想 ， 如 何 从 磁盘 加 载 可 执行 程序 到 内 存 。 一 种 选择 是 ， 在 程序 执行 时 将 整个 程序 
加 载 到 物理 内 存 。 然 而 ， 这 种 方法 的 一 个 问题 是 ， 最 初 可 能 不 需要 整个 程序 都 处 于 内 存 。 
假设 程序 开始 时 带 有 一 组 用 户 可 选 的 选项 。 加 载 整个 程序 会 导致 所 有 选项 的 执行 代码 都 加 
载 到 内 存 中 ， 而 不 管 这 些 选 项 是 否 最 终 使 用 。 另 一 种 策略 是 ， 仅 在 需要 时 才 加 载 页 面 。 这 
种 技术 被 称 为 请 求 调 页 (demand paging)， 常 常用 于 虚拟 内 存 系统 。 对 于 请 求 调 页 的 虚拟 
内 存 ， 页 面 只 有 在 程序 执行 期 间 被 请 求 时 才 被 
加 载 。 因 此 ， 从 未 访问 的 那些 页 从 不 加 载 到 物 
理 内 存 中 。 

请 求 调 页 系统 类 似 于 具有 交换 的 分 页 系统 ， 程序 A 
如 图 9-4 所 示 ， 这 里 进程 驻 留 在 外 存 上 (通常 
为 磁盘 )。 当 进程 需要 执行 时 ， 它 被 交换 到 内 存 
中 。 不 过 ， 不 是 将 整个 进程 交换 到 内 存 中 ， 而 
是 采用 情 性 交换 器 (lazy swapper)。 惰 性 交换 程序 B 
器 除非 需要 某 个 页 面 ， 和 否则 从 不 将 它 交换 到 内 
存 中 。 在 请 求 调 页 的 上 下 文中 ， 使 用 术语 “ 交 
换 器 ”在 技术 上 是 不 正确 的 。 交 换 器 操纵 整个 
进程 ， 而 调 页 程序 (pager) 只 涉及 进程 的 页 面 。 
因此 ， 在 讨论 请 求 调 页 时 ， 我 们 使 用 “ 调 页 程 ”图 9-4 从 分 页 内 存 到 连续 磁盘 空间 的 传输 
序 ”， 而 不 是 “交换 器 ”。 


9.2.1 基本 概念 


当 换 人 进程 时 ， 调 页 程序 会 猜测 在 该 进程 被 再 次 换 出 之 前 会 用 到 哪些 页 。 调 页 程序 不 是 
调 人 整个 进程 ， 而 是 把 那些 要 使 用 的 页 调和 内存。 这样 ， 调 页 程序 就 避免 了 读 人 那些 不 使 用 
的 页 ， 也 减少 了 交换 时 间 和 所 需 的 物理 内 存 空 间 。 
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使 用 这 种 方案 需要 一 定形 式 的 硬件 支持 ， 以 区 分 内 存 的 页 面 和 磁盘 的 页 面 。8.5.3 节 所 
述 的 有 效 -无 效 位 方案 可 用 于 这 一 目的 。 然 而 此 时 ， 当 该 位 被 设置 为 “有效” 时 ， 相 关联 的 
页 面 是 合法 的 ， 并且 在 内 存 中 。 当 该 位 被 设置 为 “无 效 ” 时 ， 页 面 无 效 ( 即 不 在 进程 的 逻辑 
地 址 空间 中 )， 或 有 效 但 只 在 磁盘 上 。 对 于 已 调和 人 内存 的 页 面 ， 它 的 页 表 条 目 是 照常 设置 的 ; 
但 是 对 于 不 在 内 存 的 页 面 ， 它 的 页 表 条 目 可 简单 标记 为 无 效 ， 或 者 包含 磁盘 上 的 页 面 地 址 。 
这 种 情况 如 图 9-5 所 示 。 
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物理 内 存 
图 9-5 有 些 页 面 不 在 内 存 的 页 表 


请 注意 ， 如 果 进 程 从 不 试图 访问 标记 为 无 效 的 页 面 ， 那 么 并 没有 什么 影响 。 因 此 ， 如 
果 猜 测 正确 并 且 只 调 人 所 有 实际 需要 的 页 面 ， 那 么 进程 就 如 同 所 有 页 面 都 已 调 人 内 存 一 
样 正 常 运行 。 当 进程 执行 和 访问 那些 内 存 驻 留 (memory resident) 的 页 面 时 ， 执 行 会 正常 
进行 。 

但 是 ， 如 果 进 程 试图 访问 那些 尚未 调 人 内 存 中 的 页 面 时 ， 情 况 会 如 何 呢 ? 对 标记 为 无 效 
的 页 面 访问 会 产生 缺 页 错误 (page fault)。 分 页 硬件 在 通过 页 表 转 换 地 址 时 会 注意 到 无 效 位 
被 设置 ， 从 而 陷入 操作 系统 。 这 种 陷阱 是 由 于 操作 系统 未 能 将 所 需 的 页 面 调 人 内 存 引 起 的 。 
处 理 这 种 缺 页 错误 的 程序 很 简单 (图 9-6 ): 

1. 检查 这 个 进程 的 内 部 表 (通常 与 PCB ( Process Control Block， 进 程控 制 块 ) 一 起 保 
存 )， 以 确定 该 引用 是 有 效 的 还 是 无 效 的 内 存 访问 。 

2. 如 果 引 用 无 效 ， 那 么 终止 进程 。 如 果 引 用 有 效 但 是 尚未 调和 页面 ， 那 么 现在 就 应 调 人 。 

3. 找到 一 个 空闲 帧 (例如 ， 从 空闲 帧 链表 上 得 到 一 个 )。 

4. 调度 一 个 磁盘 操作 ， 以 将 所 需 页 面 读 到 刚 分 配 的 帧 。 

5. 当 磁 盘 读 取 完 成 时 ， 修 改进 程 的 内 部 表 和 页 表 ， 以 指示 该 页 现在 处 于 内 存 中 。 

6. 重 新 启动 被 陷阱 中 断 的 指令 。 该 进程 现在 能 访问 所 需 的 页 面 ， 就 好 像 它 总 是 在 内 
存 中 。 


395 


268 — RH ARD AASB 


页 面 处 在 备用 存储 










加 载 缺 页 


图 9-6 ”处理 缺 页 错误 的 步 又 


在 极端 情况 下 ， 我 们 可 以 开始 执行 一 个 没有 内 存 页 面 的 进程 。 当 操作 系统 将 指令 指针 
设置 为 进程 的 第 一 条 指令 时 ， 由 于 它 所 在 的 页 面 并 不 在 内 存 中 ， 进 程 立 即 出 现 缺 页 错误 。 当 
该 页 面 调 入 内存 后 ， 进 程 继 续 执行 ; 根据 需要 发 生 缺 页 错误 ， 直 到 所 需 每 个 页 面 都 在 内 存 
中 。 这 时 ， 它 可 以 在 没有 更 多 缺 页 错误 的 情况 下 执行 。 这 种 方案 为 纯 请 求 调 页 (pure demand 
paging): 只 有 在 需要 时 才 将 页 面 调和 内存。 

理论 上 ， 有 些 程序 的 每 次 指令 执行 可 以 访问 多 个 新 的 页 面 (一 个 用 于 指令 ， 其 他 的 多 
个 用 于 数据 )， 从 而 每 条 指令 可 能 引起 多 个 缺 页 错误 。 这 种 情况 会 导致 不 可 接受 的 系统 性 能 。 
幸运 的 是 ， 对 运行 进程 的 分 析 表 明 ， 这 种 行为 是 极 不 可 能 的 。 如 9.6.1 节 所 述 ， 程 序 具 有 局 
部 引用 (locality of reference)， 这 使 得 请 求 调 页 具有 较为 合理 的 性 能 。 

支持 请 求 调 页 的 硬件 与 分 页 和 交换 的 硬件 相同 : 

e 页 表 : 该 表 能 够 通过 有 效 - 无 效 位 或 保护 位 的 特定 值 将 条 目标 记 为 无 效 。 

e 外 存 (secondary memory)( 或 辅助 存储 ) : 这 种 外 存 用 于 保存 不 在 内 存 〈 主 存 ) 中 的 那 

些 页 面 。 外 存 通常 为 高 速 硬 盘 ， 称 为 交换 设备 ， 用 于 交换 的 这 部 分 磁盘 称 为 交换 空 
间 (swap space)。 交 换 空间 的 分 配 将 在 第 12 章 中 讨论 。 

请 求 调 页 的 关键 要 求 是 在 缺 页 错误 后 重新 启动 任何 指令 的 能 力 。 因 为 当 发 生 缺 页 错误 
时 ,保存 了 被 中 断 的 进程 状态 (寄存 器 、 条 件 代码 、 指 令 计数 器 )， 所 以 应 能 够 在 完全 相同 
的 位 置 和 状态 下 ， 重 新 启动 进程 ， 只 不 过 现在 所 需 的 页 面 已 在 内 存 中 并 且 是 可 以 访问 的 。 在 
大 多 数 情况 下 ， 这 个 要 求 很 容易 满足 。 任 何 内 存 引 用 都 可 能 引起 缺 页 错误 。 如 果 在 获取 指令 
时 出 现 了 缺 页 错误 ， 那么 可 以 再 次 获取 指令 。 如 果 在 获取 操作 数 时 出 现 了 缺 页 错误 ， 那 么 可 
以 再 次 获取 指令 、 再 次 译 码 指令 ， 然 后 再 次 获取 操作 数 。 

作为 最 坏 情况 的 示例 ， 假 设 一 个 具有 三 个 地 址 的 指令 ADD， 它 可 将 A 和 B 的 内 容 相 
加 ， 并 将 结果 存 人 C。 这 个 指令 的 执行 步骤 是 ， 

1. 获取 并 解码 指令 (ADD). 

2. 获取 A。 

3. 获取 B。 
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4. 将 A 和 B 相 加 。 

5. 将 结果 存 人 C Po 

如 果 在 尝试 保存 到 C 时 出 现 缺 页 错误 (因为 C 所 在 的 页 面 并 不 在 内 存 中 )， 那 么 应 获取 
所 需 的 页 面 ， 将 其 调 入 ， 更 正 页 表 ， 然 后 重新 启动 指令 。 重 新 启动 需要 再 次 获取 指令 ,再 次 
对 指令 译 码 ， 再 次 获取 两 个 操作 数 ， 然 后 相 加 。 然 而 ， 没 有 多 少 重复 工作 〈 少 于 一 条 完整 指 
令 )， 并 且 仅 当 发 生 缺 页 错误 时 才 需 要 重复 。 

当 一 条 指令 可 以 修改 多 个 不 同 的 位 置 时 ， 就 会 出 现 重要 困难 。 例 如 ，IBM System 360/370 
的 MVC (move character， 移 动 字 符 ) 指令 ， 可 以 从 一 个 位 置 移动 多 达 256 字 节 到 另 一 个 位 
置 (可 能 重合 )。 如 果 任 何 一 块 ( 源 或 目的 ) 跨越 页 边界 ， 那 么 在 执行 了 部 分 移动 时 可 能 会 出 
现 缺 页 错误 。 此 外 ， 如 果 源 块 和 目的 块 有 重 礁 ， 源 块 可 能 已 被 修改 ; 在 这 种 情况 下 ， 我 们 不 
能 简单 重新 启动 指令 。 

这 个 问题 可 有 两 种 不 同 的 解决 方法 。 一 种 解决 方案 是 ， 微 代码 计算 并 试图 访问 两 块 的 两 
端 。 如 果 会 出 现 缺 页 错误 ， 那 么 在 这 一 步 就 会 出 现 (在 任何 内 容 被 修改 之 前 )。 然 后 可 以 执 
行 移动 。 我 们 知道 不 会 发 生 缺 页 错误 ， 因 为 所 有 相关 页 面 都 在 内 存 中 。 另 一 个 解决 方案 使 用 
临时 寄存 器 来 保存 覆盖 位 置 的 值 。 如 果 有 缺 页 错误 ， 则 在 陷阱 发 生 之 前 ， 所 有 旧 值 都 将 写 回 
到 内 存 中 。 该 动作 将 内 存 恢 复 到 指令 启动 之 前 的 状态 ， 这 样 就 能 够 重复 该 指令 。 

这 绝 不 是 通过 向 现 有 架构 添加 分 页 以 允许 请 求 调 页 而 产生 的 唯一 的 架构 问题 ， 不 过 它 已 
说 明了 所 涉及 的 一 些 困 难 。 分 页 是 在 计算 机 系统 的 CPU 和 内 存 之 间 添 加 的 。 它 应 该 对 用 户 
进程 完全 透明 。 因 此 ， 人 们 经 常 假 定 分 页 能 够 添加 到 任何 系统 。 这 个 假定 对 于 非 请 求 调 页 环 
境 来 说 是 正确 的 ， 因 为 在 这 种 环境 中 ， 缺 页 错误 就 代表 了 一 个 致命 错误 。 然 而 ， 对 于 缺 页 错 
误 仅 意 味 着 另外 一 个 额外 页 面 需要 调 人 内 存 ， 然 后 进程 重新 运行 的 情况 来 说 ， 这 个 假定 就 是 
不 正确 的 。 


9.2.2 请求 调 页 的 性 能 


请 求 调 页 可 以 显著 影响 计算 机 系统 的 性 能 。 为 了 说 明 起 见 ， 下 面 计算 一 下 请 求 调 页 内 存 
的 有 效 访 问 时 间 (effective access time)。 对 大 多 数 计算 机 系统 而 言 ， 内 存 访问 时 间 (用 ma 
表示 ) 的 范围 为 10 ~ 200ns。 只 要 没有 出 现 缺 页 错误 ， 有 效 访问 时 间 就 等 于 内 存 访问 时 间 。 
然而 ， 如 果 出 现 缺 页 错误 ， 那么 就 应 先 从 磁盘 中 读 人 相关 页 面 ， 再 访问 所 需要 的 字 。 
设 p 为 缺 页 错误 的 概率 (0 < p < 1)。 希望 p 接近 于 0， 即 缺 页 错误 很 少 。 那 么 有 效 访 
问 时 间 为 : 
有 效 访 问 时 间 =(1-p)xma+pXx 缺 页 错误 时 间 
为 了 计算 有 效 访问 时 间 ， 应 知道 需要 多 少时 间 来 处 理 缺 页 错误 。 缺 页 错误 导致 发 生 以 下 
一 组 动作 : 
1. 陷 和 人 操作 系统 。 
2. 保存 用 户 寄存 器 和 进程 状态 。 
3. 确定 中 断 是 否 为 缺 页 错误 。 
4. 检查 页 面 引用 是 否 合法 ， 并 确定 页 面 的 磁盘 位 置 。 
5. 从 磁盘 读 入 页面 到 空闲 帧 
a. 在 该 磁盘 队列 中 等 待 ， 直 到 读 请 求 被 处 理 。 
b. 等 待 磁盘 的 寻 道 或 延迟 时 间 。 
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c. 开始 传输 磁盘 页 面 到 空闲 帧 。 

6. 在 等 待 时 ， 将 CPU 分 配给 其 他 用 户 〈CPU 调度 ， 可 选 )。 

7. 收 到 来 自 IO 子 系统 的 中 断 (1/O 完成 )。 

8. 保存 其 他 用 户 的 寄存 器 和 进程 状态 (如果 执 行 了 第 6 步 )。 

9. 确认 中 断 是 来 自 上 述 磁 盘 的 。 

10. 修正 页 表 和 其 他 表 ， 以 表示 所 需 页 面 现 在 已 在 内 存 中 。 

11. 等 待 CPU 再 次 分 配给 本 进程 。 

12. 恢复 用 户 寄 存 器 、 进 程 状 态 和 新 页 表 ， 再 重新 执行 中 断 的 指令 。 

以 上 步骤 并 不 是 在 所 有 情况 下 都 是 必要 的 。 例 如 ， 假 设 第 6 步 在 执行 IO 时 将 CPU 分 配给 
另 一 进程 。 这 种 安排 允许 多 道 程序 以 提高 CPU 使 用 率 ， 但 是 在 执行 完 IO 时 也 需要 额外 时 
间 来 重新 启动 缺 页 错误 的 处 理 程序 。 

在 任何 情况 下 ， 缺 页 错误 的 处 理 时 间 有 三 个 主要 组 成 部 分 : 

o 处 理 缺 页 错误 中 断 。 

o ARM. 

o 重新 启动 进程 。 

第 一 个 和 第 三 个 任务 通过 仔细 编码 可 以 减少 到 几 百 条 指令 。 这 些 任务 每 次 可 能 需要 
1 一 100ms。 然 而 ， 页 面 切换 时 间 可 能 接近 8ms。( 典 型 硬盘 的 平均 延迟 为 3ms， 寻 道 时 间 为 
Sms， 传 输 时间 为 0.05ms。 因 此 ， 总 的 调 页 时 间 约 为 gsms， 包 括 硬件 的 和 软件 的 时 间 。) 而 
且 ， 要 注意 ， 这 里 只 考虑 了 设备 处 理 时 间 。 如 果 有 一 队列 的 进程 正在 等 竺 设备， 那么 应 加 上 
等 待 设备 的 时 间 ， 以 便 等 待 调 页 设备 空闲 来 处 理 请 求 ， 从 而 增加 了 更 多 的 交换 时 间 。 

如 果 缺 页 错误 处 理 的 平均 时 间 为 gms， 内 存 访 问 时 间 为 200ns， 那 么 有 效 内 存 访问 时 间 
(以 ns 计 ) 为 

有 效 访问 时 间 = (1-p) x (200) + p(8ms) 
= (1- p) x 200 + p x 8 000 000 
= 200 + 7 999 800 x p 

这 样 ， 我 们 看 到 有 效 访问 时 间 与 缺 页 错误 率 (page-fault rate) 成 正比 。 如 果 每 1000 次 
访问 中 有 一 次 缺 页 错误 ， 那 么 有 效 访问 时 间 为 8.2ns。 由 于 请 求 分 页 ， 计 算 机 会 减速 40 倍 。 
如 果 我 们 希望 性 能 下 降 小 于 10%， 则 需要 将 缺 页 错误 的 概率 保持 在 以 下 级 别 : 

220 > 200 + 7 999 800 x p 
20 > 7 999 800 x p 
p < 0.000 002 5 
也 就 是 说 ， 为 了 因 人 缺 页 错误 而 产生 的 性 能 降低 可 以 接受 ， 那 么 只 能 允许 每 399 990 次 访问 中 
出 现 不 到 一 次 的 缺 页 错误 。 总 之 ， 对 于 请 求 调 页 ， 降 低 缺 页 错误 率 是 极为 重要 的 。 和 否则 ， 会 
增加 有 效 访问 时 间 ， 从 而 极 大 地 减缓 了 进程 的 执行 速度 。 

请 求 调 页 的 另 一 个 方面 是 交换 空间 的 处 理 和 整体 使 用 。 交 换 空间 的 磁盘 1/0 通常 要 快 于 
文件 系统 的 。 交 换 空 间 的 文件 系统 更 快 ， 因 为 它 是 按 更 大 的 块 来 分 配 的 ， 且 不 采用 文件 查找 
和 间接 分 配方 法 (第 12 章 )。 因 此 ， 系 统 可 以 在 进程 启动 时 将 整个 文件 映像 复制 到 交换 空间 
中 ， 然 后 从 交换 空间 执行 请 求 调 页 ， 从 而 获得 更 好 的 分 页 吞吐 量 。 另 一 选择 是 ， 开 始 时 从 文 
件 系统 进行 请 求 调 页 ， 但 是 在 置换 页 面 时 则 将 页 面 写 人 交换 空间 。 这 种 方法 确保 ， 只 从 文件 
系统 读 取 所 需 的 页 面 ， 而 所 有 后 续 调 页 都 是 从 交换 空间 完成 的 。 
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对 于 二 进 制 文件 的 请 求 调 页 ， 有 些 系统 试图 限制 交换 空间 的 用 量 。 这 些 文件 的 请 求 调 
页 是 从 文件 系统 中 直接 读 取 的 。 然 而 ， 当 需要 页 面 置 换 时 ， 这 些 帧 可 以 简单 地 覆盖 (因为 
它们 从 未 被 修改 ) ; 当 再 次 需要 时 ， 从 文件 系统 中 再 次 直接 读 和 人 。 采 用 这 种 方法 ， 文 件 系统 
本 身 用 作 后 备 存 储 。 然 而 ， 对 于 与 文件 无 关 的 页 面 还 是 需要 使 用 交换 空间 ( 称 为 匿名 内 存 
(anonymous memory))， 这 些 页 面包 括 进程 的 堆栈 (stack) 和 堆 (heap)。 这 种 方法 似乎 是 一 
个 很 好 的 折 中 ， 并 用 于 多 个 操作 系统 ， 如 Solaris 与 BSD UNIX。 

移动 操作 系统 通常 不 支持 交换 。 当 内 存 变 得 有 限时 ， 这 些 系 统 从 文件 系统 请 求 调 页 ， 并 
从 应 用 程序 中 回收 只 读 页 面 (例如 代码 )。 如 果 以 后 需要 ， 可 以 从 文件 系统 中 请 求 这 些 数 据 。 
对 于 iOS， 不 会 从 应 用 程序 中 回收 匿名 内 存 页 面 ， 除 非 应 用 程序 终止 或 显 式 释 放 内 存 。 
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9.2 节 描 述 了 一 个 进程 如 何 采 用 请 求 调 页 ， 仅 调 入 包括 第 一 条 指令 的 页 面 ， 从 而 能 够 很 
快 开始 执行 。 然 而 ， 通 过 系统 调用 fork() 的 进程 创建 最 初 可 以 通过 使 用 类 似 于 页 面 共享 的 
技术 (在 8.5.4 节 中 讨论 )， 绕 过 请 求 调 页 的 需要 。 这 种 技术 提供 了 快速 的 进程 创建 ， 并 最 小 
化 必须 分 配给 新 创建 进程 的 新 页 面 的 数量 。 

回想 一 下 ， 系 统 调 用 fork() 创建 了 父 进程 的 一 个 复制 ， 以 作为 子 进程 。 传 统 上 ， 
fork() 为 子 进程 创建 一 个 父 进程 地 址 空间 的 副本 ， 复 制 属于 父 进程 的 页 面 。 然 而 ， 考 虑 到 
许多 子 进程 在 创建 之 后 立即 调用 系统 调用 exec() ， 父 进程 地 址 空间 的 复制 可 能 没有 必要 。 
因此 ， 可 以 采用 一 种 称 为 写 时 复制 ( copy-on-write) 的 技术 ， 它 通过 允许 父 进程 和 子 进程 最 
初 共 享 相同 的 页 面 来 工作 。 这 些 共享 页 面 标记 为 写 时 复制 ， 这 意味 着 如 果 任 何 一 个 进程 写 入 
共享 页 面 ， 那 么 就 创建 共享 页 面 的 副本 。 写 时 复制 如 图 9-7 和 图 9-8 所 示 ， 这 两 个 图 反映 了 
修改 页 面 C 的 前 与 后 。 


进程 1 物理 内 存 进程 2 





进程 物理 内 存 进程 2 





9-8 进程 1 修改 页 面 C 之 后 
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例如 ， 假 设 子 进程 试图 修改 包含 部 分 堆栈 的 页 面 ， 并 且 设 置 为 写 时 复制 。 操 作 系统 会 创 
建 这 个 页 面 的 副本 ， 将 其 映射 到 子 进程 的 地 址 空间 。 然 后 ， 子 进程 会 修改 复制 的 页 面 ， 而 不 
是 属于 父 进程 的 页 面 。 显 然 ， 当 使 用 写 时 复制 技术 时 ， 仅 复制 任何 一 进程 修改 的 页 面 ， 所 有 
未 修改 的 页 面 可 以 由 父 进程 和 子 进程 共享 。 还 要 注意 ， 只 有 可 以 修改 的 页 面 才 需 要 标记 为 写 
时 复制 。 不 能 修改 的 页 面 (包含 可 执行 代码 的 页 面 ) 可 以 由 父 进程 和 子 进 程 共享 。 写 时 复制 
是 一 种 常用 技术 ， 为 许多 操作 系统 所 采用 ， 包 括 Windows XP, Linux 和 Solaris. 

当 确 定 采用 写 时 复制 来 复制 页 面 时 ， 重 要 的 是 注意 空闲 页 面 的 分 配 位 置 。 许 多 操作 系统 
为 这 类 请 求 提供 了 一 个 空闲 的 页 面 池 (page pool)。 当 进程 的 堆栈 或 堆 要 扩展 时 或 有 写 时 复 
制 页 面 需 要 管理 时 ， 通常 分 配 这 些 空 闪 页面。 操作 系统 分 配 这 些 页 面 通常 采用 称 为 按 需 填 零 
(zero-fill-on-demand) 的 技术 。 按 需 填 零 页 面 在 需要 分 配 之 前 先 填 零 ， 因 此 清除 了 以 前 的 内 容 。 

UNIX 的 多 个 版 本 (包括 Solaris 和 Linux) 提供 了 系统 调用 fork() 的 变种 ， 即 vfork() 
(虚拟 内 存 fork (virtual memory fork)), vfork() 的 操作 不 同 于 写 时 复制 的 fork()。 采 用 
vfork() ， 父 进程 被 挂 起 ， 子 进程 使 用 父 进 程 的 地 址 空间 。 因 为 vfork() 不 采用 写 时 复制 ， 
如 果子 进程 修改 父 地 址 空间 的 任何 页 面 ， 那 么 这 些 修 改过 的 页 面 对 于 恢复 的 父 进程 是 可 见 
的 。 因 此 ， 应 谨慎 使 用 vfork() ， 以 确保 子 进程 不 会 修改 父 进程 的 地 址 空间 。 当 子 进程 在 创 
建 后 立即 调用 exec() 时 ， 可 使 用 vfork()。 因 为 没有 复制 页 面 ，vfork() 是 一 个 非常 有 效 
的 进程 创建 方法 ， 有 时 用 于 实现 UNIX 命令 行 外 过 接口 。 


9.4 页 面 置换 


在 早先 讨论 缺 页 错误 率 时 ， 假 设 了 每 个 页 面 最 多 只 会 出 现 一 次 错误 ( 当 它 第 一 次 引用 
时 )。 然 而 ， 这 种 表述 严格 来 说 是 不 准确 的 。 如 果 具 有 10 页 的 一 个 进程 实际 只 使 用 其 中 的 一 
半 ， 那 么 请 求 调 页 就 节省 了 用 以 加 载 从 不 使 用 的 另外 5 页 所 需 的 IJO。 另 外 ， 通 过 运行 两 倍 
的 进程 ， 增 加 了 多 道 程度 。 因 此 ， 如 果 有 40 个 帧 ， 那 么 可 以 运行 8 个 进程 ， 而 不 是 当 每 个 
进程 都 需要 10 帧 (其 中 5 个 从 未 使 用 ) 时 只 能 运行 4 个 进程 。 

如 果 增 加 了 多 道 程度 ， 那 么 可 能 会 过 度 分 配 ( over-allocating) 内 存 。 如 果 运 行 6 个 进 
程 ， 每 个 进程 有 10 个 页 面 但 是 实际 上 只 使 用 5 个 页 面 ， 那么 会 有 更 高 的 CPU 利用 率 和 吞吐 
量 ， 并 且 还 有 10 帧 可 作 备 用 。 然 而 ， 对 于 特定 数据 集合 ， 每 个 进程 可 能 会 突然 试图 使 用 其 
所 有 页 面 ， 从 而 共 需 要 60 帧 ， 而 只 有 40 帧 可 用 。 

再 者 ， 还 需要 考虑 到 内 存 不 仅 用 于 保存 程序 页 面 。 用 于 IO 的 缓存 也 消耗 大 量 的 内 存 ， 
这 种 使 用 会 增加 内 存 置 换算 法 的 压力 。 确 定 多 少 内 存 用 于 分 配给 IO 而 多 少 内 存 分 配给 程序 
页 面 ， 这 是 个 棘手 的 问题 。 有 些 系统 为 IO 缓存 分 配 了 固定 百分比 的 内 存 ， 而 其 他 系统 允许 
用 户 进程 和 IO 子 系统 竞争 使 用 所 有 系统 内 存 。 

内 存 的 过 度 分 配 会 有 问题 。 当 用 户 进程 正在 执行 时 ， 可 能 发 生 缺 页 错误 。 操 作 系 统 确定 
所 需 页 面 的 磁盘 位 置 ， 但 是 却 发 现 空 闲 帧 列表 上 没有 空闲 帧 ， 所 有 内 存 都 在 使 用 (图 9-9 )。 

这 时 ， 操 作 系 统 有 多 个 选项 。 它 可 以 终止 用 户 进程 。 然 而 ， 请 求 调 页 是 操作 系统 试图 改 
善 计算 机 系统 的 使 用 率 和 吞吐 量 的 技术 。 用 户 不 应 该 意识 到 ， 他 们 的 进程 是 运行 在 调 页 系统 
E: 对 用 户 而 言 ， 调 页 应 是 透明 的 。 因 此 ， 这 个 选择 并 不 是 最 佳 的 。 

此 外 ， 操 作 系统 也 可 以 交换 出 一 个 进程 ， 以 释放 它 的 所 有 帧 并 降低 多 道 程 度 。 在 某 些 情 
况 下 ， 这 个 选项 是 不 错 的 ， 我 们 在 9.6 节 进 一 步 讨 论 。 这 里 ， 我 们 讨论 最 常见 的 解决 方案 : 
页 面 置 换 (page replacement). 
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BAKT 。 用 户 2 的 页 表 
图 9-9 需要 页 面 置 换 的 情况 


9.4.1 基本 页 面 置 换 


页 面 置换 采用 以 下 方法 。 如 果 没 有 空闲 帧 ， 那 么 就 查找 当前 不 在 使 用 的 一 个 帧 ， 并 释放 
它 。 可 以 这 样 来 释放 一 个 帧 ,将 其 内 容 写 到 交换 空间 ， 并 修改 页 表 (和 所 有 其 他 表 )， 以 表 
示 该 页 不 在 内 存 中 (图 9-10 )。 现 在 可 使 用 空闲 帧 ， 来 保存 进程 出 错 的 页 面 。 修 改 缺 页 错误 [403| 
处 理 程序 ， 以 包括 页 面 置 换 : 

1. 找到 所 需 页 面 的 磁盘 位 置 。 

2. 找到 一 个 空闲 帧 : 

a. 如 果 有 空闲 帧 ， 那 么 就 使 用 它 。 
b. 如 果 没 有 空闲 帧 ， 那 么 就 使 用 页 面 置换 算法 来 选择 一 个 牺牲 帧 〈victim frame)。 
c. 将 牺牲 帧 的 内 容 写 到 磁盘 上 ， 修 改 对 应 的 页 表 和 帧 表 。 

3. 将 所 需 页 面 读 入 (新 的 ) 空闲 帧 ， 修 改 页 表 和 帧 表 。 

4. 从 发 生 缺 页 错误 位 置 ， 继 续 用 户 进程 。 

请 注意 ， 如 果 没 有 空闲 帧 ， 那 么 需要 两 个 页 面 传输 (一 个 调 出 ,一 个 调 入 )。 这 种 情况 实际 
上 加 倍 了 缺 页 错误 处 理 时 间 ， 并 相应 地 增加 了 有 效 访问 时 间 。 


Wi 有 效 -无 效 位 
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采用 修改 位 (modify bit) (或 脏 位 (dirty bit) ) 可 减少 这 种 开销 。 当 采用 这 种 方案 时 ， 每 
个 页 面 或 帧 都 有 一 个 修改 位 ， 两 者 之 间 的 关联 采用 硬件 。 每 当 页 面 内 的 任何 字 节 被 写 人 时 ， 
它 的 页 面 修改 位 会 由 硬件 来 设置 ， 以 表示 该 页 面 已 被 修改 过 。 当 要 选择 一 个 页 面 进行 置换 
时 ， 就 检查 它 的 修改 位 。 如 果 该 位 已 被 设置 ， 那 么 该 页 面 从 磁盘 读 和 人 以 后 已 被 修改 。 在 这 种 
情况 下 ， 应 将 页 面 写 人 人 磁盘。 然而， 如果 修改 位 未 被 设置 ， 那 么 该 页 面 从 磁盘 读 和 人 以 后 还 未 
被 修改 。 在 这 种 情况 下 ， 我 们 不 需要 将 内 存 页 面 写 到 磁盘 因为 它 已 经 存在 。 这 种 技术 也 适用 
于 只 读 页 面 ( 例 如， 二 进 制 代码 的 页 面 )。 这 种 页 面 不 能 被 修改 ; 因此 ， 如 需要 ， 这 些 页 面 
可 以 被 放弃 。 这 种 方案 可 显著 地 降低 用 于 处 理 缺 页 错误 所 需 的 时 间 ， 因 为 如 果 页 面 没 有 被 修 
改 ， 可 以 降低 一 半 的 1/O 时 间 。 

页 面 置 换 是 请 求 调 页 的 基础 。 它 完成 了 逻辑 内 存 和 物理 内 存 之 间 的 分 离 。 采 用 这 种 机 
制 ， 较 小 的 物理 内 存 能 为 程序 员 提 供 巨 大 的 虚拟 内 存 。 若 没有 请 求 调 页 ， 用 户 地址 被 映射 到 
物理 地 址 ， 并 且 两 组 地 址 可 以 不 同 。 然 而 ， 进 程 的 所 有 页 面 仍 应 在 物理 内 存 中 。 有 了 请 求 调 
页 ， 逻 辑 地 址 空间 的 大 小 不 再 受 限 于 物理 内 存 。 如 果 有 一 个 具有 20 个 页 面 的 用 户 进程 ， 那 
么 可 简单 地 通过 请 求 调 页 和 置换 算法 〈 必 要 时 用 于 查找 空闲 帧 )， 只 用 10 个 帧 来 执行 它 。 如 
果 所 要 置换 页 面 已 修改 ， 则 将 其 内 容 复 制 到 磁盘 。 稍 后 ， 对 该 页 面 的 引用 将 导致 缺 页 错误 。 
那 时 ， 页 面 将 被 调 回 到 内 存 ， 也 许 会 取代 进程 的 其 他 页 面 。 

为 实现 请 求 调 页 ， 必 须 解决 两 个 主要 问题 : 应 设计 帧 分 配 算法 (frame-allocation algorithm) 
和 页 面 置 换算 法 ( page-replacement algorithm ) 。 也 就 是 说 ， 如 果 有 多 个 进程 在 内 存 中 ， 则 必 
须 决 定 要 为 每 个 进程 分 配 多 少 帧 ;并 且 当 需要 页 面 置换 时 ， 必 须 选 择 要 置换 的 帧 。 设 计 适 当 
的 算法 来 解决 这 些 问 题 是 个 重要 任务 ， 因 为 磁盘 IO 是 如 此 昂贵 。 即 使 请 求 调 页 方法 的 轻微 
改进 也 会 为 系统 性 能 带 来 显著 提高 。 

有 许多 不 同 的 页 面 置换 算法 。 每 个 操作 系统 可 能 都 有 自己 的 置换 方案 。 如 何 选择 特 
定 的 置换 算法 ? 通常 采用 最 小 缺 页 错误 率 的 算法 。 一 般 来 说 ， 我 们 想 要 一 个 缺 页 错误 率 最 
低 的 算法 。 

可 以 这 样 评 估 一 个 算法 : 针对 特定 内 存 引 用 串 ， 运 行 某 个 置换 算法 ， 并 计算 缺 页 错误 
的 数量 。 内 存 引用 的 串 称 为 引用 串 (reference string)。 可 以 人 工地 生成 引用 串 (例如 ， 通 
过 随机 数 生成 器 )， 或 可 以 跟踪 一 个 给 定 系统 并 记录 每 个 内 存 引 用 的 地 址 。 后 一 种 选择 可 
以 产生 大 量 数据 (以 每 秒 数 百 万 地 址 的 速度 )。 为 了 减少 数据 的 数量 ， 可 以 利用 以 下 两 个 
事实 。 

第 一 ， 对 于 给 定 的 页 面 大 小 (页面 大 小 通常 由 硬件 或 系统 来 决定 )， 只 需 考 虑 页 码 ， 而 
非 完 整地 址 。 第 二 ， 如 果 有 一 个 对 页 面 p 的 引用 ,那么 紧 跟着 的 对 页 面 p 的 任何 引用 决 不 会 
引起 缺 页 错误 。 页 面 p 将 在 第 一 次 引用 后 在 内 存 中 ， 因 此 紧 接 着 的 后 面 的 引用 不 会 出 错 。 

例如 ， 在 跟踪 一 个 特定 的 进程 时 ， 可 能 记录 以 下 的 地 址 序列 : 


0100, 0432, 0101, 0612, 0102, 0103, 0104, 0101, 0611, 0102, 0103, 
0104, 0101, 0610, 0102, 0103, 0104, 0101, 0609, 0102, 0105 


如 果 页 面 大 小 为 100 字 节 ， 和 那么 此 序列 缩减 为 以 下 的 引用 串 : 


1,4, 1,6, 1, 6, 1, 6, 1, 6,1 


为 了 确定 特定 引用 串 和 页 面 置换 算法 的 缺 页 错误 数量 ， 还 需要 知道 可 用 帧 的 数量 。 显 
然 ， 随 着 可 用 帧 数量 的 增加 ， 缺 页 错误 的 数量 会 减少 。 例 如 ， 对 于 上 面 的 引用 串 ， 如 果 有 3 
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PRE NW, BARA 3 个 缺 页 错误 ， 即 每 个 页 面 的 首次 引用 会 产生 一 次 错误 。 相 比 之 
下 ， 当 只 有 一 个 可 用 帧 时 ， 那 么 每 个 引用 都 要 产 
生 置 换 ， 导 致 11 个 缺 页 错误 。 一 般 来 说 ， 期 望 
得 到 如 图 9-11 所 示 的 曲线 。 随 着 帧 数量 的 增加 ， 
缺 页 错误 的 数量 会 降低 至 最 小 值 。 当 然 ， 添 加 物 
理 内 存 会 增加 帧 的 数量 。 

下 面 ， 讨 论 几 种 页 面 置换 算法 。 为 此 ， 假 设 
有 3 个 帧 并 且 引 用 串 为 : 


7,0, 1,2, 0,3, 0,4, 2,3, 0, 3, 2, 1, 2,0, 1,7, 0,1 


图 9-11 缺 页 错误 与 帧 数量 图 


9.4.2 FIFO 页 面 置换 


最 简单 的 页 面 置换 算法 是 FIFO 算法 。FIFO 页 面 置 换算 法 为 每 个 页 面 记 录 了 调 到 内 存 
的 时 间 。 当 必须 置换 页 面 时 ， 将 选择 最 旧 的 页 面 。 请 注意 ， 并 不 需要 记录 调 入 页 面 的 确切 时 
间 。 可 以 创建 一 个 FIFO 队列 ， 来 管理 所 有 的 内 存 页 面 。 置 换 的 是 队列 的 首 个 页 面 。 当 需要 
调 人 页面 到 内 存 时 ， 就 将 它 加 到 队列 的 尾部 。 

对 于 样 例 引用 串 ，3 个 帧 开始 为 空 。 首 次 的 3 个 引用 (7，0，1 ) 会 引起 缺 页 错误 ， 并 
被 调 到 这 些 空 帧 。 之 后 将 调 人 这 些 空闲 帧 。 下 一 个 引用 (2) 置换 7， 这 是 因为 页 面 7 最 先 
调 入 。 由 于 0 是 下 一 个 引用 并 且 已 在 内 存 中 ， 所 以 这 个 引用 不 会 有 缺 页 错误 。 对 3 的 首次 引 
用 导致 页 面 0 被 替代 ， 因 为 它 现在 是 队列 的 第 一 个 。 因 为 这 个 置换 ， 下 一 个 对 0 的 引用 将 有 
缺 页 错误 ， 然 后 页 面 1 被 页 面 0 置换 。 该 进程 按 图 9-12 所 示 方 式 继续 进行 。 每 当 有 人 缺 页 错 
误 时 ,图 9-12 显示 了 哪些 页 面 在 这 三 个 帧 中 。 总 共有 15 次 缺 页 错误 。 


引用 串 
站 


回国 回国 回回 回国 加 加 oe app 
加 回回 回 回回 回回 回回 nh oo 
Hoon 国 回 回回 图 图 BEA BAE 
页 帧 


图 9-12 FIFO 页 面 置换 算法 





FIFO 页 面 置换 算法 易于 理解 和 编程 。 然 而 ， 它 的 性 能 并 不 总 是 十 分 理想 。 一 方面 ， 所 
置换 的 页 面 可 以 是 很 久 以 前 使 用 过 但 现 已 不 再 使 用 的 初始 化 模块 。 另 一 方面 ， 所 置换 的 页 面 
可 以 包含 一 个 被 大 量 使 用 的 变量 ， 它 早 就 初始 化 了 ， 但 仍 在 不 断 使 用 。 

请 注意 ， 即 使 选择 正在 使 用 的 一 个 页 面 来 置换 ， 一 切 仍然 正常 工作 。 在 活动 页 面 被 置换 
为 新 页 面 后 ， 几 乎 立即 发 生 缺 页 错误 ， 以 取 回 活动 页 面 。 某 个 其 他 页 面 必 须 被 置换 ， 以 便 将 
活动 页 面 调 回 到 内 存 。 因 此 ， 选 择 不 当 的 置换 增加 缺 页 错误 率 ， 并 且 减 慢 处 理 执行 。 然 而 ， 
它 不 会 造成 执行 不 正确 。 

为 了 说 明 使 用 FIFO 页 面 置换 算法 可 能 出 现 的 问题 ， 假 设 如 下 引用 串 : 


1,2,3; 4, 1,2,5,1,2,3,4,5 


图 9-13 为 这 个 引用 串 的 缺 页 错误 数量 与 可 用 帧 数量 的 曲线 。4 帧 的 缺 页 错误 数 (10) 比 3 帧 
的 缺 页 错误 数 (9 ) 还 要 大 ! 这 个 最 意 想 不 到 的 结果 被 称 为 Belady 异常 (Belady’s anomaly): 
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对 于 有 些 页 面 置换 算法 ， 随 着 分 配 帧 数量 的 增加 ， 缺 页 错误 率 可 能 会 增加 。 然 而 ， 我 们 原本 
期 望 ， 为 一 个 进程 提供 更 多 的 内 存 可 以 改善 其 性 
能 。 在 早期 研究 中 ， 研 究 人 员 注 意 到 ， 这 种 推测 
并 不 总 是 正确 的 ， 并 发 现 了 Belady 异常 这 个 
结果 。 


9.4.3 ”最 优 页 面 置换 


发 现 Belady 异常 的 一 个 结果 是 寻找 最 优 页 
面 置 换算 法 (optimal page-replacement algorithm), 
这 个 算法 具有 所 有 算法 的 最 低 的 缺 页 错误 率 ， 并 
且 不 会 遭受 Belady 异常 。 这 种 算法 确实 存在 ， 图 13 一 个 引用 让 的 FEO 置换 的 缺 页 
它 被 称 为 OPT 或 MIN。 简 单 地 说 : HRN 

置换 最 长 时 间 不 会 使 用 的 页 面 。 

这 种 页 面 置 换算 法 确保 ， 对 于 给 定数 量 的 帧 会 产生 最 低 的 可 能 的 缺 页 错误 率 。 

例如 ， 针 对 示例 引用 串 ， 最 优 置 换算 法 会 产生 9 个 缺 页 错误 ， 如 图 9-14 所 示 。 头 3 个 
引用 会 产生 缺 页 错误 ， 以 填 满 3 个 空闲 帧 。 对 页 面 2 的 引用 会 置换 页 面 7， 因 为 页 面 7 直到 
第 18 次 引用 时 才 使 用 ， 页 面 0 在 第 5 次 引用 时 使 用 ， 页 面 1 在 第 14 次 引用 时 使 用 。 对 页 面 
3 的 引用 会 置换 页 面 1， 因 为 页 面 1 是 位 于 内 存 的 3 个 页 面 中 最 后 被 再 次 引用 的 页 面 。 有 9 
个 缺 页 错误 的 最 优 页 面 置换 算法 要 好 于 有 15 个 缺 页 错误 的 FIFO 置换 算法 。( 如 果 我 们 忽略 
前 3 个 ， 这 是 所 有 算法 都 会 遭遇 的 ， 那 么 最 优 置 换 要 比 FIFO 置换 好 一 倍 。) 事实 上 ， 没 有 置 
换算 法 能 够 只 用 3 个 帧 并 且 少 于 9 个 缺 页 错误 ， 就 能 处 理 样 例 引 用 串 。 

引用 串 
人 
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图 9-14 最 优 置 换算 法 


然而 ， 最 优 置 换算 法 难以 实现 ， 因 为 需要 引用 串 的 未 来 知识 。( 在 5.3.2 节 讨 论 SJF CPU 
调度 时 ， 碰 到 过 一 个 类 似 问 题 )。 因 此 ， 最 优 算法 主要 用 于 比较 研究 。 例 如 ， 如 果 知 道 一 个 
算法 不 是 最 优 ， 但 是 与 最 优 相 比 最 坏 不 差 于 12.3%， 平 均 不 差 于 4.7%， 那 么 也 是 很 有 用 的 。 


944 LRU 页 面 置换 


如 果 最 优 算法 不 可 行 ， 那 么 最 优 算法 的 近似 或 许 成 为 可 能 。FIFO 和 OPT 算法 的 关键 区 
别 在 于 ， 除 了 在 时 间 上 向 后 或 向 前 看 之 外 ，FIFO 算法 使 用 的 是 页 面 调和 人 内 存 的 时 间 ，OPT 
算法 使 用 的 是 页 面 将 来 使 用 的 时 间 。 如 果 我 们 使 用 最 近 的 过 去 作为 不 远 将 来 的 近似 ， 那 
么 可 以 置换 最 长 时 间 没 有 使 用 的 页 。 这 种 方法 称 为 最 近 最 少 使 用 算法 ( Least-Recent-Used 
algorithm, LRU algorithm ) 。 

LRU 置换 将 每 个 页 面 与 它 的 上 次 使 用 的 时 间 关联 起 来 。 当 需要 置换 页 面 时 ，LRU 选择 
最 长 时 间 没 有 使 用 的 页 面 。 这 种 策略 可 当 作 在 时 间 上 向 后 看 而 不 是 向 前 看 的 最 优 页 面 置换 算 
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法 。( 奇 怪 的 是 ， 如 果 5* 表示 引用 串 5 的 倒转 (reverse), ABA S 的 OPT 算法 的 缺 页 错 
误 率 与 针对 S 的 OPT 算法 的 缺 页 错误 率 是 相同 的 。 类 似 地 ， 针 对 S AY LRU 算法 的 缺 页 错 
误 率 与 针对 S? 的 LRU 算法 的 缺 页 错误 率 相 同 。) 

将 LRU 置换 应 用 于 样 例 引 用 串 的 结果 ， 如 图 9-15 所 示 。LRU 算法 产生 12 次 缺 页 错误 。 
注意 ， 头 5 个 缺 页 错误 与 最 优 置换 置换 的 一 样 。 然 而 ， 当 页 面 4 的 引用 出 现时 ， 由 于 在 内 存 
的 3 个 帧 中 ， 页 面 2 最 近 最 少 使 用 ， 因 此 ，LRU 算法 置换 页 面 2， 而 并 不 知道 页 面 2 即将 要 
用 。 接 着 ， 当 页 面 2 出 错时 ，LRU 算法 置换 页 面 3， 因 为 位 于 内 存 的 3 个 页 中 ， 页 面 3 最 近 
最 少 使 用 。 尽 管 会 有 这 些 问题 ， 有 12 个 缺 页 错误 的 LRU 置换 仍然 要 好 于 有 15 个 缺 页 错误 
的 FIFO 置换 。 


引用 串 
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图 9-15 LRU 页 面 置换 算法 


LRU 策略 通常 用 作 页 面 置换 算法 ， 并 被 认为 是 不 错 的 策略 。 它 的 主要 问题 是 ， 如 何 实 
现 LRU Mk, LRU 页 面 置换 算法 可 能 需要 重要 的 硬件 辅助 。 它 的 问题 是 ， 确 定 由 上 次 使 用 
时 间 定 义 的 帧 的 顺序 。 两 个 实现 是 可 行 的 ; 

e 计数 器 : 在 最 简单 的 情况 下 ， 为 每 个 页 表 条 目 关联 一 个 使 用 时 间 域 ， 并 为 CPU 添加 
一 个 逻辑 时 钟 或 计数 器 。 每 次 内 存 引用 都 会 递增 时 钟 。 每 当 进 行 页 面 引 用 时 ， 时 钟 
寄存 器 的 内 容 会 复制 到 相应 页 面 的 页 表 条 目的 使 用 时 间 域 。 这 样 ， 我 们 总 是 有 每 个 
页 面 的 最 后 引用 的 “时 间 ”。 我 们 置换 具有 最 小 时 间 的 页 面 。 这 种 方案 需要 搜索 页 表 
以 查找 LRU 页 面 ， 而 且 每 次 内 存 访问 都 要 写 到 内 存 (到 页 表 的 使 用 时 间 域 ) 。 当 页 表 
更 改 时 (由 于 CPU 调度 )， 还 必须 保留 时 间 。 时 钟 溢出 也 要 考虑 。 
堆栈 : 实现 LRU 置换 的 另 一 种 方法 是 采用 页 码 堆栈 。 每 当 页 面 被 引用 时 ， 它 就 从 堆 
栈 中 移 除 并 放 在 项 部。 这 样 ， 最 近 使 用 的 页 面 总 sti 
是 在 堆栈 的 顶部 ， 最 近 最 少 使 用 的 页 面 总 是 在 底 4707101212712 
部 (图 9-16 )。 因 为 必须 从 堆栈 的 中 间 删 除 条 目 ， g 
所 以 最 好 通过 使 用 具有 首 指针 和 尾 指 针 的 双向 链 
表 来 实现 这 种 方法 。 这 样 ， 删 除 一 个 页 面 并 放 在 了 
堆栈 顶部 ， 在 最 坏 情 况 下 需要 改变 6 个 指针 。 虽 
说 每 次 更 新 有 点 费时 ， 但 是 置换 不 需要 搜索 ; 指 ”之 前 的 堆栈 b 之 后 的 堆栈 
针 指 向 堆栈 的 底部 ， 这 是 LRU 页 面 。 这 种 方法 特 ”图 9-16 采用 堆栈 记录 最 近 页 面 引用 
别 适 用 于 LRU 置换 的 软件 或 微 代码 实现 。 

像 最 优 置 换 一 样 ，LRU 置换 没有 Belady 异常 。 这 两 个 都 属于 同一 类 算法 ， 称 为 堆栈 算 
& (stack algorithm)， 都 绝 不 可 能 有 Belady 异常 。 堆 栈 算 法 可 以 证 明 为 ， 帧 数 为 到 的 内 存 页 
ME AEWA n+ 1 的 内 存 页 面 集合 的 子 集 。 对 于 LRU 置换 ， 内 存 中 的 页 面 集合 为 最 近 引 
用 的 nn 个 页 面 。 如 果 帧 数 增加 ， 那 么 这 n 个 页 面 仍然 是 最 近 被 引用 的 ， 因 此 仍然 在 内 存 中 。 

注意 ， 除 了 标准 的 TLB 寄存 器 没有 其 他 辅助 硬件 ， 这 两 种 LRU 实现 都 是 不 可 能 的 。 每 
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次 内 存 引用 ， 都 应 更 新 时 钟 域 或 堆栈 。 如 果 每 次 引用 都 采用 中 断 以 便 允 许 软件 更 新 这 些 数 据 
结构 ,那么 它 会 使 内 存 引 用 至 少 慢 10 倍 ， 进 而 使 用 户 进程 运行 慢 10 倍 。 很 少 有 系统 可 以 容 
忍 这 种 级 别 的 内 存 管 理 开 销 。 


9.4.5 近似 LRU 页 面 置换 


很 少 有 计算 机 系统 能 提供 足够 的 硬件 来 支持 真正 的 LRU 页 面 置 换算 法 。 事 实 上 ， 有 些 系 
统 不 提供 硬件 支持 ， 并 且 必 须 使 用 其 他 页 面 置换 算法 〈 例 如 FIFO 算法 )。 然 而 ， 许 多 系统 都 
通过 引用 位 (reference bit) 的 形式 提供 一 定 的 支持 。 每 当 引 用 一 个 页 面 时 (无 论 是 对 页 面 的 字 
节 进 行 读 或 写 )， 它 的 页 面 引用 位 就 被 硬件 置 位 。 页 表 内 的 每 个 条 目 都 关联 着 一 个 引用 位 。 

最 初 ， 所 有 引用 位 由 操作 系统 清 零 (至 0 )。 当 用 户 进 程 执行 时 ， 每 个 引用 到 的 页 面 引 
用 位 由 硬件 设置 (至 1 )。 一 段 时 间 后 ， 我 们 可 以 通过 检查 引用 位 来 确定 哪些 页 面 已 被 使 用 ， 
哪些 页 面 尚 未 使 用 ， 虽 说 我 们 不 知道 使 用 的 顺序 。 这 种 信息 是 许多 近似 LRU 页 面 置 换算 法 
的 基础 。 
9.4.5.1 额外 引用 位 算法 

通过 定期 记录 引用 位 ， 我 们 可 以 获得 额外 的 排序 信息 。 可 以 为 内 存 中 的 页 表 的 每 个 页 面 
保留 一 个 8 位 的 字 节 。 定 时 器 中 断定 期 地 (如 每 100ms) 将 控制 传 到 操作 系统 。 操 作 系 统 将 
每 个 页 面 引用 位 移 到 其 8 位 字 节 的 高 位 ， 将 其 他 位 右 移 1 位 ， 并 丢弃 最 低位 。 这 些 8 位 移 位 
寄存 器 包含 着 最 近 8 个 时 间 周 期 内 的 页 面 使 用 情况 。 例 如 ， 如 果 移 位 寄存 器 包含 00000000， 
那么 该 页 面 在 8 个 时 间 周 期 内 没有 使 用 。 每 个 周期 内 使 用 至 少 一 次 的 页 面具 有 11111111 的 
移 位 寄存 器 值 。 具 有 11000100 的 历史 寄存 器 值 的 页 面 比 具有 值 为 01110111 的 页 面 更 为 “最 
近 使 用 的 ”。 如 果 将 这 些 8 位 字 节 解释 为 无 符号 整数 ， 那 么 具有 最 小 编号 的 页 面 是 LRU 页 
面 ， 可 以 被 奉 换 。 请 注意 ， 不 能 保证 数字 是 唯一 的 。 可 以 置换 所 有 有 具有 最 小 值 的 页 面 ， 或 者 
在 这 些 页 面 之 间 采 用 FIFO 来 选择 置换 。 

当然 ， 移 位 寄存 器 的 历史 位 数 可 以 改变 ， 并 可 以 选择 以 便 使 更 新 尽 可 能 快 〈 取 决 于 可 用 
的 硬件 )。 在 极端 情况 下 ， 位 数 可 降 为 0， 即 只 有 引用 位 本 身 。 这 种 算法 称 为 第 二 次 机 会 页 
面 置 换算 法 (second-chance page-replacement algorithm ) 。 
9.4.5.2 第 二 次 机 会 算法 

第 二 次 机 会 置换 的 基本 算法 是 一 种 FIFO 置换 算法 。 然 而 ， 当 选择 了 一 个 页 面 时 ， 需 要 
检查 其 引用 位 。 如 果 值 为 0， 那 么 就 直接 置换 此 页 面 ; 如 果 引 用 位 设置 为 1， 那么 就 给 此 页 
面 第 二 次 机 会 ， 并 继续 选择 下 一 个 FIFO 页 面 。 当 一 个 页 面 获得 第 二 次 机 会 时 ， 其 引用 位 被 
清除 ， 并 且 到 达 时 间 被 设 为 当前 时 间 。 因 此 ， 获 得 第 二 次 机 会 的 页 面 ， 在 所 有 其 他 页 面 被 置 
换 (或 获得 第 二 次 机 会 ) 之 前 ， 不 会 被 置换 。 此 外 ， 如 果 一 个 页 面 经 常 使 用 以 致 于 其 引用 位 
总 是 得 到 设置 ， 那 么 它 就 不 会 被 置换 。 

实现 第 二 次 机 会 算法 (有 时 称 为 时 钟 算法 (clock algorithm ) ) 的 一 种 方式 是 采用 循环 队 
列 。 指 针 ( 即 时 钟 指针 ) 指示 接 下 来 要 置换 哪个 页 面 。 当 需要 一 个 帧 时 ， 指 针 向 前 移动 直 
到 找到 一 个 引用 位 为 0 的 页 面 。 在 向 前 移动 时 ， 它 会 清除 引用 位 (图 9-17 )。 一旦 找到 牺牲 
页 面 ， 就 置换 该 页 面 ， 并且 在 循环 队列 的 这 个 位 置 上 插入 新 页 面 。 注 意 ， 在 最 坏 的 情况 下 ， 
当 所 有 位 都 已 设置 ， 指 针 会 循环 遍历 整个 队列 ， 给 每 个 页 面 第 二 次 机 会 。 在 选择 下 一 个 页 
面 进行 置换 之 前 ， 它 将 清除 所 有 引用 位 。 如 果 所 有 位 都 为 1， 第 二 次 机 会 置换 退化 为 FIFO 
替换 。 
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页 的 循环 队列 页 的 循环 队列 
a) b) 


图 9-17 第 二 次 机 会 (时 钟 ) 页 面 置换 算法 


9.4.5.3 ”增强 型 第 二 次 机 会 算法 

通过 将 引用 位 和 修改 位 (参见 9.4.1 节 的 描述 ) 作为 有 序 对 ， 可 以 改进 二 次 机 会 算法 。 
有 了 这 两 个 位 ， 就 有 下 面 四 种 可 能 的 类 型 : 

e (0, 0) 最 近 没 有 使 用 且 没 有 修改 的 页 面 ， 最 佳 的 页 面 置换 。 

e (0, 1) 最 近 没 有 使 用 但 修改 过 的 页 面 ， 不 太 好 的 置换 ， 因 为 在 置换 之 前 需要 将 页 面 写 出 。 

e (1，0 ) 最 近 使 用 过 但 没有 修改 的 页 面 ， 可 能 很 快 再 次 使 用 。 

e (1, 1) 最 近 使 用 过 目 修改 过 ， 可 能 很 快 再 次 使 用 ， 并 且 在 置换 之 前 需要 将 页 面 写 出 到 

磁盘 。 

每 个 页 面 都 属于 这 四 种 类 型 之 一 。 当 需要 页 面 置换 时 ， 可 使 用 与 时 钟 算法 一 样 的 方案 ; 
但 不 是 检查 所 指 页 面 的 引用 位 是 否 设 置 ， 而 是 检查 所 查 页 面 属于 哪个 类 型 。 我 们 替换 非 空 的 
最 低 类 型 中 的 第 一 个 页 面 。 请 注意 ， 可 能 需要 多 次 扫描 循环 队列 ， 才 会 找到 要 置换 的 页 面 。 

这 种 算法 与 更 为 简单 的 时 钟 算法 的 主要 区 别 在 于 : 这 里 为 那些 已 修改 页 面 赋予 更 高 级 
别 ， 从 而 降低 了 所 需 IO 数量 。 


946 ”基于 计数 的 页 面 置换 


页 面 置换 还 有 许多 其 他 算法 。 例 如 ， 可 以 为 每 个 页 面 的 引用 次 数 保存 一 个 计数 器 ， 并 且 
开发 以 下 两 个 方案 。 

e 最 不 经 常 使 用 (Least Frequently Used, LFU) 页 面 置换 算法 要 求 置 换 具 有 最 小 计数 的 
页 面 。 这 种 选择 的 原因 是 ， 积 极 使 用 的 页 面 应 当 具 有 大 的 引用 计数 。 然 而 ， 当 一 个 
页 面 在 进程 的 初始 阶段 大 量 使 用 但 是 随后 不 再 使 用 时 ,会 出 现 问题 。 由 于 被 大 量 使 
FA, 它 有 一 个 大 的 计数 ， 即 使 不 再 需要 却 仍 保留 在 内 存 中 。 一 种 解决 方案 是 ， 定 期 
地 将 计数 右 移 1 位 ， 以 形成 指数 衰减 的 平均 使 用 计数 。 

最 经 常 使 用 (Most Frequently Used, MFU) 页 面 置换 算法 是 基于 如 下 论点 : 具有 最 
小 计数 的 页 面 可 能 刚刚 被 引入 并 且 尚 未 使 用 


280 GARD ABER 


正如 你 可 以 想象 的 ，MFU F LFU 置换 都 不 常用 。 这 些 算法 的 实现 是 昂贵 的 ， 并 且 它 们 不 能 
很 好 地 近似 OPT 置换 。 


94.7 页 面 缓冲 算法 


除了 特定 页 面 置换 算法 之 外 ， 还 经 常 采用 其 他 措施 。 例 如 ， 系 统 通常 保留 一 个 空闲 帧 
缓冲 池 。 当 出 现 缺 页 错误 时 ， 会 像 以 前 一 样 选 择 一 个 牺牲 帧 。 然 而 ， 在 写 出 牺牲 帧 之 前 ， 所 
需 页 面 就 读 到 来 自 缓冲 池 的 空闲 帧 。 这 种 措施 允许 进程 尽快 重新 启动 ， 而 无 需 等 待 写 出 牺牲 
帧 。 当 牺牲 帧 以 后 被 写 出 后 ， 它 被 添加 到 空闲 帧 池 。 

这 种 方法 的 扩展 之 一 是 ， 维 护 一 个 修改 页 面 的 列表 。 每 当 调 页 设备 空闲 时 ， 就 选择 一 个 
修改 页 面 以 写 到 磁盘 上 ， 然 后 重 置 它 的 修改 位 。 这 种 方案 增加 了 在 需要 选择 置换 时 干净 的 且 
无 需 写 出 的 页 面 的 概率 。 

另 一 种 修改 是 ,保留 一 个 空闲 帧 池 ， 并且 记 住 哪些 页 面 在 哪些 帧 内 。 因 为 在 帧 被 写 到 磁 
盘 后 帧 内 容 并 未 被 修改 ， 所 以 当 该 帧 被 重用 之 前 ， 如 果 再 次 需要 ， 那 么 旧 的 页 面 可 以 从 空闲 
帧 池 中 直接 取出 并 被 使 用 。 这 种 情况 不 需要 IO。 当 发 生 缺 页 错误 时 ， 首 先 检查 所 需 页 面 是 
和 否 在 空闲 帧 池 中 。 如 果 不 在， 我 们 应 选择 一 个 自由 帧 并 读 和 页面。 

这 种 技术 与 FIFO 置换 算法 一 起 用 于 VAX/VMS 系统 中 。 当 FIFO 置换 算法 错误 地 置换 
了 一 个 常用 页 面 时 ， 该 页 面 可 从 空闲 帧 池 中 很 快 取 出 ， 而 且 不 需要 IO。 这 种 空闲 帧 缓冲 弥 
补 了 相对 差 但 却 简单 的 FIFO 置换 算法 。 这 种 方法 是 必要 的 ， 因 为 早期 版 本 的 VAX 没有 正 
确实 现 引 用 位 。 

有 些 版 本 的 UNIX 系统 将 此 方法 与 第 二 次 机 会 算法 一 起 使 用 。 这 种 方法 可 用 来 改进 任何 
页 面 置换 算法 ， 以 降低 因 错 误 选 择 牺牲 页 面 而 引起 的 开销 。 


948 ”应 用 程序 与 页 面 置换 


在 某 些 情况 下 ， 通 过 操作 系统 的 虚拟 内 存 访 问 数据 的 应 用 程序 比 操作 系统 根本 没有 提供 
缓冲 区 更 差 。 一 个 典型 的 例子 是 数据 库 ， 它 提供 自己 的 内 存 管理 和 IO 缓冲 。 类 似 这 样 的 程 
序 比 提供 通用 目的 算法 的 操作 系统 ， 更 能 理解 自己 的 内 存 使 用 与 磁盘 使 用 。 如 果 操 作 系 统 提 
供 IO 缓冲 而 应 用 程序 也 提供 IO 缓冲 ， 那么 用 于 这 些 IO 的 内 存 自 然 就 成 倍 了 。 

另 一 个 例子 是 数据 仓库 ， 它 频繁 地 执行 大 量 的 、 顺 序 的 磁盘 读 取 ， 随 后 计算 并 写 入 。 
LRU 算法 会 删除 旧 的 页 面 并 保留 新 的 页 面 ， 而 应 用 程序 将 更 可 能 读 取 较 旧 的 页 面 而 不 是 较 
新 的 页 面 (因为 它 再 次 开始 顺序 读 取 )。 这 里 ，MFU 可 能 比 LRU 更 为 高 效 。 

由 于 这 些 问题 ， 有 的 操作 系统 允许 特殊 程序 能 够 将 磁盘 分 区 作为 逻辑 块 的 大 的 数组 
来 使 用 ， 而 不 需要 通过 文件 系统 的 数据 结构 。 这 种 数组 有 时 称 为 原始 磁盘 (raw disk), 
而 这 种 数组 的 1/0 称 为 原始 1O。 原 始 VO 绕 过 所 有 文件 系统 服务 ， 例 如 文件 1/0 的 请 求 
调 页 、 文 件 锁定 、 预 取 、 空 间 分 配 、 文 件 名 和 目录 等 。 请 注意 ， 尽 管 有 些 应 用 程序 在 原始 
分 区 上 实现 自己 的 专用 存储 服务 更 加 高 效 ， 但 是 大 多 数 应 用 程序 采用 通用 文件 系统 服务 
更 好 。 


9.5 ” 帧 分 配 
接 下 来 讨论 分 配 问题 。 在 各 个 进程 之 间 ， 如 何 分 配 固定 数量 的 可 用 内 存 ? 如 果 有 93 个 
空闲 帧 和 2 个 进程 ， 那 么 每 个 进程 各 有 多 少 帧 ? 
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最 简单 的 情况 是 单 用 户 系 统 。 假 设 有 一 个 单 用 户 系 统 ， 它 有 128KB 的 内 存 ， 它 的 页 面 
大 小 为 1KB。 这 个 系统 有 128 帧 。 操 作 系统 可 能 需要 3SKB ， 而 用 户 进 程 得 到 留 下 的 93 帧 。 
如 果 采 用 纯 请 求 调 页 ， 那么 所 有 93 帧 最 初 都 被 放 在 空闲 帧 的 列表 上 。 当 用 户 进程 开始 执行 
时 ， 它 会 生成 一 系列 的 缺 页 错误 。 前 93 个 缺 页 错误 将 从 空闲 帧 列表 中 获得 空闲 帧 。 当 空闲 
帧 列表 用 完 后 ， 通 过 页 面 置换 算法 从 位 于 内 存 的 93 个 页 面 中 ， 选 择 一 个 置换 为 第 94 个 页 
面 ， 等 等 。 当 进程 终止 时 ， 这 93 个 帧 将 再 次 放 到 空闲 帧 列表 上 。 

这 种 简单 策略 有 许多 变种 。 我 们 可 以 要 求 操作 系统 从 空闲 帧 列表 上 分 配 所 有 缓冲 和 表 空 
间 。 当 这 个 空间 未 被 操作 系统 使 用 时 ， 可 用 于 支持 用 户 调 页 。 我 们 也 可 以 试图 确保 在 空闲 列 
表 上 任何 时 候 至 少 有 3 个 空闲 帧 ， 这 样 在 发 生 缺 页 错误 时 ， 有 用 于 调 页 的 空闲 帧 。 当 发 生 页 
面 交换 时 ， 选 择 一 个 置换 的 页 面 ， 在 用 户 进程 继续 执行 时 可 将 其 内 容 写 到 磁盘 。 虽 然 其 他 变 
种 也 可 能 ， 但 是 基本 策略 是 清楚 的 : 用 户 进 程 会 分 配 到 任何 空闲 帧 。 


9.5.1 帧 的 最 小 数 


帧 分 配 策略 受到 多 方面 的 限制 。 例 如 ， 所 分 配 的 帧 不 能 超过 可 用 帧 的 数量 (除非 有 页 面 
共享 )， 也 必须 分 配 至 少 最 小 数量 的 帧 。 这 里 对 后 者 作 一 讨论 。 

分 配 至 少 最 小 数量 的 帧 的 一 个 原因 涉及 性 能 。 显 然 ， 随 着 分 配给 每 个 进程 的 帧 数量 的 减 
少 ， 缺 页 错误 率 增 加 ， 从 而 减 慢 进程 执行 。 此 外 ， 请 记 住 ， 若 在 执行 指令 完成 之 前 发 生 缺 页 
错误 ， 应 重新 启动 指令 。 因 此 ， 必 须 有 足够 的 帧 来 容纳 任何 单个 指令 可 以 引用 的 所 有 不 同 的 
页 面 。 

例如 ， 考 虑 这 样 一 个 机 器 ， 它 的 所 有 内 存 引 用 的 指令 仅 可 以 引用 一 个 内 存 地 址 。 在 这 种 
情况 下 ， 至 少 需要 一 个 帧 用 于 指令 ， 另 一 个 帧 用 于 内 存 引 用 。 此 外 ， 如 果 人 允许 一 级 间接 寻 址 
(例如 ， 第 16 个 页 面 的 加 载 指令 可 以 引用 第 0 个 页 面 的 地 址 ， 进 而 间接 引用 第 23 个 页 面 )， 
那么 分 页 要 求 每 个 进程 至 少 需要 3 个 帧 。 考 虑 一 下 ， 如 果 一 个 进程 只 有 两 个 帧 ， 会 发 生 
什么 。 

最 小 帧 数 由 计算 机 架构 定义 。 例 如 ，PDP-11 的 移动 指令 在 有 些 寻 址 模式 下 包括 多 个 字 ， 
因此 指令 本 身 可 跨越 2 个 页 面 。 另 外 ， 它 有 2 个 操作 数 ， 而 且 每 个 操作 数 都 可 能 是 间接 引 
用 ， 从 而 共 需 要 6 个 帧 。 另 一 个 例子 是 IBM 370 MVC 指令 。 由 于 这 个 指令 是 从 存储 位 置 到 
存储 位 置 ， 它 需要 6 字 节 并 且 可 能 跨越 2 个 页 面 。 要 移动 的 字符 块 ORM) 和 要 移动 到 的 区 
域 (目的 ) 都 可 以 跨越 2 个 页 面 。 这 种 情况 需要 6 个 帧 。 最 坏 的 情况 是 ，MVC 指令 作为 跨 
越 页 面 边界 的 EXECUTE 指令 的 操作 数 ， 这 种 情况 需要 8 个 帧 。 

有 些 计算 机 体系 结构 允许 多 级 的 间接 寻 址 (例如 ， 每 个 16 位 的 字 可 能 包括 一 个 15 位 的 
地 址 和 1 位 的 间接 标记 )， 这 时 最 糟糕 的 情况 可 能 会 出 现 。 理 论 上 ， 一 个 简单 的 加 载 指令 可 
以 引用 另 一 个 间接 地 址 ， 而 它 可 能 又 引用 另 一 个 间接 地 址 〈 在 另 一 个 页 面 上 )， 接 着 又 再 次 
引用 另 一 个 间接 地 址 (又 在 另 一 页 面 上 )， 等 等 ， 直 到 虚拟 内 存 的 每 个 页 面 都 被 引用 到 。 因 
此 ， 在 最 坏 的 情况 下 ， 整 个 虚拟 内 存 都 必须 在 物理 内 存 中 。 为 了 克服 这 个 困难 ， 必 须 对 间 
接 引用 设置 限制 (例如 ， 限 制 一 个 指令 只 能 有 最 多 16 级 的 间接 引用 )。 当 发 生 第 一 次 间接 引 
用 时 ， 计 数 器 被 设置 为 16， 针 对 该 指令 的 每 个 连续 间接 引用 递减 计数 器 。 如 果 计 数 器 递减 
到 0， 则 出 现 陷阱 (过度 的 间接 引用 )。 这 种 限制 使 得 每 条 指令 的 内 存 引 用 的 最 大 数目 减少 到 
17， 从 而 需要 相同 数目 的 帧 。 

尽管 每 个 进程 的 最 小 帧 数 是 由 体系 结构 决定 的 ， 但 是 最 大 帧 数 是 由 可 用 物理 内 存 的 数量 
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决定 的 。 在 这 两 者 之 间 ， 对 于 帧 的 分 配 仍然 有 很 多 选择 。 


9.5.2 分配 算 法 


在 n 个 进程 中 分 配 m 个 帧 的 最 容易 方法 是 ,给 每 个 进程 一 个 平均 值 ， 即 m/n tt (忽略 操 
作 系 统 所 需 的 帧 )。 例 如 ， 如 果 有 93 个 帧 和 5 个 进程 ,那么 每 个 进程 将 获得 18 个 帧 。 剩 余 
的 3 个 帧 可 以 用 作 空 闲 帧 缓冲 池 。 这 种 方案 称 为 平均 分 配 (equal allocation)。 

另外 一 种 方法 是 基于 各 个 进程 需要 不 同 数量 的 内 存 。 考 虑 这 样 一 个 系统 ， 其 帧 大 小 为 
1KB。 如 果 系 统 只 有 两 个 进程 运行 ， 并 且 空 闲 帆 数 为 62， 一 个 进程 为 具有 10KB 的 学 生 进 
程 ， 另 一 个 进程 为 具有 127KB 的 交互 数据 库 ， 那 么 给 每 个 进程 各 31 个 进程 帧 就 没有 意义 。 
学 生 进 程 需要 的 帧 数 不 超过 10， 因 此 严格 来 说 其 他 21 帧 就 浪费 了 。 

为 了 解决 这 个 问题 ， 可 以 使 用 比例 分 配 (proportional allocation)， 这 里 根据 每 个 进程 大 
小 分 配 可 用 内 存 。 假 设 进程 pi 的 虚拟 内 存 大 小 为 5， 并 且 定 义 

S= Ds; 
这 样 ， 如 果 可 用 帧 的 总 数 为 m， 那 么 进程 pi PAIS a; 个 帧 ， 这 里 a 近似 为 
ai= S/SX m 

当然 ， 必 须 将 w 调整 为 整数 ， 并 且 a 大 于 指令 集 所 需 的 最 小 帧 数 ， 其 总 和 不 超过 m。 

采用 比例 分 配 ， 在 两 个 进程 之 间 按 比例 分 配 62 个 帧 : 具有 10 个 页 面 的 进程 得 到 4 个 
wW, WEA 127 个 页 面 的 进程 得 到 57 个 帧 。 这 是 因为 

10/137 x 62 =4 
127/137 x 62 = 57 

这 样 两 个 进程 根据 需要 (而 不 是 平均 地 ) 得 到 可 用 内 存 。 

当然 ， 对 于 平均 分 配 和 比例 分 配 ， 每 个 进程 分 得 的 数量 可 以 因 多 道 程度 而 变化 。 如 果 多 
道 程 度 增 加 ， 则 每 个 进程 会 失去 一 些 帧 ， 以 提供 新 进程 所 需 的 内 存 。 相 反 ， 如 果 多 道 程度 降 
低 ， 则 原来 分 配给 离开 进程 的 帧 会 分 配给 剩余 进程 。 

注意 ， 对 于 平均 分 配 或 比例 分 配 ， 高 优先 级 进程 与 低 优先 级 进程 同样 处 理 。 然 而 ， 根 据 
定义 ， 可 能 希望 给 予 高 优先 级 的 进程 更 多 内 存 以 加 速 执 行 ， 同 时 损害 低 优 先 级 进程 。 一 种 解 
决 方案 是 ， 所 采用 的 比例 分 配 的 策略 不 是 根据 进程 的 相对 大 小 ， 而 是 根据 进程 的 优先 级 或 大 
小 和 优先 级 的 组 合 。 


9.5.3 全 局 分 配 与 局 部 分 配 


为 各 个 进程 分 配 帧 的 另 一 个 重要 因素 是 页 面 置换 。 由 于 多 个 进程 竞争 帧 ， 可 以 将 页 面 置 
换算 法 分 为 两 大 类 : 全 局 置换 (global replacement) 和 局 部 置换 (local replacement)。 全 局 
置换 允许 一 个 进程 从 所 有 帧 的 集合 中 选择 一 个 置换 帧 ， 而 不 管 该 帧 是 和 否 已 分 配给 其 他 进程 ; 
也 就 是 说 ， 一 个 进程 可 以 从 另 一 个 进程 那里 获取 帧 。 局 部 置换 要 求 每 个 进程 只 从 它 自 己 分 配 
的 帧 中 进行 选择 。 

例如 ， 考 虑 这 样 一 种 分 配方 案 ， 可 以 允许 高 优先 级 进程 从 低 优先 级 进程 中 选择 帧 用 于 
置换 。 进 程 可 以 从 它 自己 的 帧 或 任何 较 低 优先 级 进程 的 帧 中 选择 置换 。 这 种 方法 允许 高 优先 
级 进程 以 低 优先 级 进程 为 代价 增加 其 帧 分 配 。 采 用 局 部 置换 策略 ， 分 配给 每 个 进程 的 帧 数 不 
变 。 采 用 全 局 置换 ， 一 个 进程 可 能 从 分 配给 其 他 进程 的 帧 中 选择 一 个 用 于 置换 ， 从 而 增加 了 
分 配给 它 的 帧 数 (假定 其 他 进程 不 从 它 这 里 选择 帧 用 于 置换 )。 
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全 局 置换 算法 的 一 个 问题 是 ， 进 程 不 能 控制 它 自己 的 缺 页 错误 率 。 一 个 进程 的 内 存 页 面 
的 集合 不 但 取决 于 进程 本 身 的 调 页 行为 ， 而 且 取决 于 其 他 进程 的 调 页 行为 。 因 此 ， 同 样 的 进 
程 随 着 总 的 外 部 环境 的 不 同 ， 可 能 执行 得 很 不 同 (例如 ， 有 的 执行 可 能 需要 0.5s， 而 有 的 执 
行 可 能 需要 10.3s)。 局 部 置换 算法 没有 这 样 的 情况 。 对 于 局 部 置换 算法 ， 进 程 的 内 存 页 面 的 
集合 仅 受 该 进程 本 身 的 调 页 行为 所 影响 。 然 而 ， 局 部 置换 由 于 不 能 使 用 其 他 进程 的 较 少 使 用 
的 内 存 页 面 ， 可 能 会 阻碍 一 个 进程 。 这 样 ， 全 局 置换 通常 会 有 更 好 的 系统 吞吐 量 ， 因 此 是 更 
常用 的 方法 。 


9.5.4 非 均 匀 内 存 访问 


到 目前 为 止 ， 在 虚拟 内 存 的 讨论 中 ， 假 设 所 有 内 存 都 相同 ， 或 至 少 可 以 被 平等 访问 。 对 
于 许多 计算 机 系统 ,情况 并 非 如 此 。 通 常 ， 对 于 具有 多 个 CPU 的 系统 ( 1.3.2 节 )， 给 定 的 
CPU 可 以 比 其 他 CPU 更 快 地 访问 内 存 的 某 些 部 分 。 这 些 性 能 差异 是 由 CPU 和 内 存在 系统 
中 互 连 造成 的 。 通 常 ， 这 样 的 系统 由 多 个 系统 板 组 成 ， 而 且 每 个 系统 板 包含 多 个 CPU 和 一 
定 的 内 存 。 系 统 板 互 连 方式 各 种 各 样 ， 从 系统 总 线 到 高 速 网 络 连接 (如 InfiniBand), FY VA 
想象 ， 特 定 板 CPU 访问 同 板 内 存 的 延迟 ， 要 小 于 访问 其 他 板 内 存 的 延迟 。 具 有 了 明显 不 同 的 
内 存 访问 时 间 的 系统 统称 为 非 均匀 内 存 访 问 ( Non-Uniform Memory Access, NUMA) 系统 ， 
并 且 毫 无 例外 地 ， 它 们 要 慢 于 内 存 和 CPU 位 于 同一 主板 的 系统 。 

管理 哪些 页 面 帧 位 于 哪些 位 置 能 够 明显 影响 NUMA 系统 的 性 能 。 如 果 将 这 种 系统 的 内 存 
视 为 统一 的 ， 与 修改 内 存 分 配 算法 以 考虑 NUMA 相 比 ， 则 CPU 可 能 等 待 更 长 时 间 来 访问 内 存 。 
应 对 调度 系统 进行 类 似 的 修改 。 这 些 修改 的 目标 是 ， 让 分 配 的 内 存 帧 “ 尽 可 能 地 靠近 ”运行 进 
程 的 CPU。“ 靠 近 ” 的 定义 是 “具有 最 小 的 延迟 ”， 这 通常 意味 着 与 CPU 一 样 位 于 同一 系统 板 。 

算法 修改 包括 让 调度 程序 跟踪 每 个 进程 运行 的 最 后 一 个 CPU。 如果 调 度 程序 尝试 将 每 
个 进程 调度 到 它 先前 的 CPU 上 ， 而 且 内 存 管理 系统 尝试 分 配 的 帧 靠近 正在 分 配 的 CPU， 那 
么 将 导致 高 速 缓存 命中 率 的 改进 和 内 存 访问 时 间 的 减少 。 

一 旦 添加 了 线程 ， 情 况 就 更 为 复杂 。 例 如 ， 有 具有 许多 运行 线程 的 某 个 进程 可 以 在 许多 
不 同系 统 板 上 有 运行 线程 。 在 这 种 情况 下 ， 如 何 分 配 内存 ?” Solaris 通过 在 内 核 中 创建 延迟 
组 (latency group, lgroup) 来 解决 这 个 问题 。 每 个 lgroup 将 相近 的 CPU 和 内 存 聚 集 在 一 起 。 
事实 上 ， 基 于 组 之 间 的 延迟 量 ， 存 在 lgroup 的 一 个 层次 结构 。Solaris 试图 在 一 个 lgroup 内 
调度 进程 的 所 有 线程 ， 并 分 配 它 的 所 有 内 存 。 如 果 这 不 可 能 ， 则 在 附近 的 lgroug 选择 所 需 
的 其 余 资 源 。 这 种 做 法 最 大 限度 地 减少 总 体内 存 延 迟 ， 且 最 大 化 CPU 缓存 命中 率 。 


96 ”系统 抖动 


如 果 低 优先 级 进程 所 分 配 的 帧 数 低 于 计算 机 体系 结构 所 需 的 最 小 数量 ， 那 么 必须 暂停 该 
进程 执行 。 然 后 ， 应 调 出 它 的 所 有 剩余 页 面 ， 以 便 释 放 所 有 分 配 的 帧 。 这 个 规定 引入 了 中 级 
CPU 调度 的 换 进 换 出 层 。 

事实 上 ， 需 要 研究 一 下 没有 “足够 ” 帧 的 进程 。 如 果 进 程 没 有 需要 支持 活动 使 用 页 面 的 
帧 数 ， 那 么 它 会 很 快 产生 缺 页 错误 。 此 时 ， 必 须 置换 某 个 页 面 。 然 而 ， 由 于 它 的 所 有 页 面 都 
在 使 用 中 ， 所 以 必须 立即 置换 需要 再 次 使 用 的 页 面 。 因 此 ， 它 会 再 次 快速 产生 缺 页 错误 ， 再 
一 次 置换 必须 立即 返回 的 页 面 ， 如 此 快速 进行 。 

这 种 高 度 的 页 面 调度 活动 称 为 拌 动 (thrashing)。 如 果 一 个 进程 的 调 页 时 间 多 于 它 的 执 
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行 时 间 ， 那 么 这 个 进程 就 在 抖动 。 


9.6.1 系统 拌 动 的 原因 


抖动 导致 严重 的 性 能 问题 。 考 虑 以 下 场景 ， 这 是 基于 早期 调 页 系统 的 实际 行为 。 

操作 系统 监视 CPU 利用 率 。 如 果 CPU 利用 率 太 低 ， 那 么 通过 向 系统 引入 新 的 进程 来 增 
加 多 道 程度 。 采 用 全 局 置换 算法 会 置换 任何 页 面 ， 而 不 管 这 些 页 面 属于 哪个 进程 。 现 在 假设 
进程 在 执行 中 进入 一 个 新 阶段 ， 并 且 需 要 更 多 的 帧 。 它 开始 出 现 缺 页 错误 ， 并 从 其 他 进程 那 
里 获取 帧 。 然 而 ， 这 些 进 程 也 需要 这 些 页 面 ， 因 此 它们 也 会 出 现 缺 页 错误 ， 并 且 从 其 他 进程 
中 获取 帧 。 这 些 缺 页 错误 进程 必须 使 用 调 页 设备 以 将 页 面 换 进 和 换 出 。 当 它们 为 调 页 设备 排 
队 时 ， 就 绪 队 列 清空 。 随 着 进程 等 待 调 页 设备 ，CPU 利用 率 会 降低 。 

CPU 调度 程序 看 到 CPU 利用 率 的 降低 ， 进 而 会 增加 多 道 程度 。 新 进程 试图 从 其 他 运行 
进程 中 获取 帧 来 启动 ， 从 而 导致 更 多 的 缺 页 错误 和 更 长 的 调 页 设备 队列 。 因 此 ，CPU 利用 
率 进 一 步 下 降 ， 并 且 CPU 调度 程序 试图 再 次 增加 多 道 程 度 。 这 样 就 出 现 了 抖动 ， 系 统 吞吐 
量 陡 降 。 缺 页 错误 率 显著 增加 。 结 果 ， 有 效 内 存 访问 时 间 增 加 。 没 有 工作 可 以 完成 ， 因 为 进 
程 总 在 忙于 调 页 。 

这 种 现象 如 图 9-18 所 示 ， 这 里 CPU 利用 率 是 
按 多 道 程 度 来 绘制 的 。 随 着 多 道 程度 的 增加 ，CPU 
利用 率 也 增加 ， 虽 然 增 加 得 更 慢 ， 直 到 达到 最 大 值 。 
如 果 多 道 程度 还 要 进一步 增加 ， 那 么 系统 抖动 就 开 
始 了 ， 并 且 CPU 利用 率 急剧 下 降 。 此 时 ， 为 了 提 
高 CPU 利用 率 并 停止 抖动 ， 必 须 降 低 多 道 程 度 。 

通过 局 部 置换 算法 (local replacement algorithm) 

或 优先 权 置 换算 法 (priority replacement algorithm), 
可 以 限制 系统 抖动 。 如 果 一 个 进程 开始 抖动 ， 那 
么 由 于 采用 局 部 置换 ， 它 不 能 从 另 一 个 进程 中 获 a EB 
取 帧 ， 而 且 也 不 能 导致 后 者 拉动 。 然 而 ， 这 个 问 。 ， be =R 
题 并 没有 完全 解决 。 如 果 进 程 拌 动 ， 那 么 在 大 多 : 
数 时 间 内 会 排队 等 待 调 页 设备 。 由 于 调 页 设备 的 30) ill 
平均 队列 更 长 ， 缺 页 错误 的 平均 等 待 时 间 也 会 增 WON sr ihe 
加 。 因 此 ， 即 使 对 于 不 再 抖动 的 进程 ， 有 效 访问 
时 间 也 会 增加 。 

为 了 防止 抖动 ， 应 为 进程 提供 足够 多 的 所 需 
帧 数 。 但 是 如 何 知 道 进 程 “ 需 要 ”多 少 帧 呢 7? 有 
多 种 技术 。 工 作 集 策略 (9.6.2 节 ) 研究 一 个 进程 
实际 使 用 多 少 帧 。 这 种 方法 定义 了 进程 执行 的 局 
部 性 模型 (locality model). 

局 部 性 模型 指出 ， 随 着 进程 执行 ， 它 从 一 个 
局 部 移 向 另 一 个 局 部 。 局 部 性 是 最 近 使 用 页 面 的 
一 个 集合 (图 9-19 ) 。 一 个 程序 通常 由 多 个 不 同 
的 可 能 重 肥 的 局 部 组 成 。 图 9-19 内存 引用 模式 中 的 局 部 性 
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例如 ， 当 一 个 函数 被 调用 时 ， 它 就 定义 了 一 个 新 的 局 部 。 在 这 个 局 部 里 ， 内 存 引用 可 针 
对 函数 调用 的 指令 、 它 的 局 部 变量 以 及 全 局 变量 的 某 个 子 集 。 当 退出 函数 时 ， 进 程 离开 该 局 
部 ， 因 为 这 个 函数 的 局 部 变量 和 指令 已 不 再 处 于 活动 使 用 状态 。 以 后 可 能 回 到 这 个 局 部 。 

因此 ， 可 以 看 到 局 部 是 由 程序 结构 和 数据 结构 来 定义 的 。 局 部 性 模型 指出 ， 所 有 程序 都 
具有 这 种 基本 的 内 存 引用 结构 。 注 意 ， 局 部 性 模型 是 本 书目 前 为 止 缓存 讨论 的 背后 原理 。 如 
果 对 任何 数据 类 型 的 访问 是 随机 的 而 没有 规律 模式 ， 那 么 缓存 就 没有 用 了 。 

假设 为 进程 分 配 足 够 的 帧 以 适应 当前 局 部 。 该 进程 在 其 局 部 内 会 出 现 缺 页 错误 ， 直 到 
所 有 页 面 都 在 内 存 中 ; 接着 它 不 再 会 出 现 缺 页 错误 ， 除 非 改 变局 部 。 如 果 没 有 能 够 分 配 到 
足够 的 帧 来 容纳 当前 局 部 ， 那 么 进程 将 会 抖动 ， 因 为 它 不 能 在 内 存 中 保留 正在 使 用 的 所 有 
页 面 。 


96.2 ”工作 集 模型 


如 上 所 述 ， 工 作 集 模型 ( working-set model) 是 基于 局 部 性 假设 的 。 这 个 模型 采用 参数 

A 定义 工作 集 窗口 (working-set window)。 它 的 思想 是 检查 最 近 A 个 页 面 引用 。 这 最 近 A 
个 页 面 引 用 的 页 面 集合 称 为 工作 集 (working-set) (如 图 9-20 所 示 )。 如 果 一 个 页 面 处 于 活动 
使 用 状态 ， 那 么 它 处 在 工作 集中 。 如 果 它 不 再 使 用 ， 那 么 它 在 最 后 一 次 引用 的 A 时 间 单 位 
后 ， 会 从 工作 集中 删除 。 因 此 ， 工 作 集 是 程序 局 部 的 近似 。 

页 面 引用 表 

...2615777751623412344434344413234443444... 

A A 


ti h 
WS(t,) = {1,2,5,6,7} WS(t,) = {3,4} 


图 9-20 工作 集 模型 


例如 ， 给 定 如 图 9-20 所 示 的 内 存 引用 序列 ， 如 果 A 为 10 个 内 存 引 用 ， 那么 时 的 工 
作 集 为 {1, 2, 5, 6, 7}。 到 记 时 ， 工 作 集 已 经 改变 为 {3，4}。 

工作 集 的 精度 取决 于 A 的 选择 。 如 果 A 太 小 ， 那 么 它 不 能 包含 整个 局 部 ; 如果 A K 
大 ， 那 么 它 可 能 包含 多 个 局 部 。 在 极端 情况 下 ， 如 果 A 为 无 穷 大 ， 那 么 工作 集 为 进程 执行 
所 需 的 所 有 页 面 的 集合 。 

因此 ， 最 重要 的 工作 集 属性 是 它 的 大 小 。 如 果 系 统 内 的 每 个 工作 集 通 过 计算 为 WSS, 
那么 就 得 到 

D=>.WSS, 

这 里 DD 为 帧 的 总 需求 量 。 每 个 进程 都 使 用 其 工作 集 内 的 页 面 。 因 此 ， 进 程 i 需要 WSS; 帧 。 如 
果 总 需求 大 于 可 用 帧 的 总 数 (D > 内 ， 则 将 发 生 抖动 ， 因 此 有 些 进 程 得 不 到 足够 的 帧 数 。 

一 旦 选中 了 A ， 工 作 集 模型 的 使 用 就 很 简单 。 操 作 系 统 监 视 每 个 进程 的 工作 集 ， 并 为 
它 分 配 大 于 其 工作 集 的 帧 数 。 如 果 还 有 足够 的 额外 帧 ， 那 么 可 启动 另 一 进程 。 如 果 工 作 集 大 
小 的 总 和 增加 ， 以 致 超过 可 用 帧 的 总 数 ， 则 操作 系统 会 选择 一 个 进程 来 挂 起 。 该 进程 的 页 面 
被 写 出 (交换 )， 并 且 其 帧 可 分 配给 其 他 进程 。 挂 起 的 进程 以 后 可 以 重启 。 

这 种 工作 集 策略 可 防止 抖动 ， 同 时 保持 尽 可 能 高 的 多 道 程度 。 因 此 ， 它 优化 了 CPU All 
用 率 。 工 作 集 模型 的 困难 是 跟踪 工作 集 。 工 作 集 窗口 是 一 个 移动 窗口 。 对 于 每 次 内 存 引用 ， 
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新 的 引用 出 现在 一 端 ， 最 旧 的 引用 离开 另 一 端 。 如 果 一 个 页 面 在 工作 集 窗口 内 的 任何 位 置 被 
引用 过 ， 那 么 它 就 在 工作 集 窗 口内 。 

通过 定期 时 钟 中 断 和 引用 位 ， 我 们 能 够 近似 工作 集 模型 。 例 如 ,假设 A 为 10 000 个 引 
用 ,而 且 每 5000 个 引用 引起 定时 器 中 断 。 当 得 到 一 个 定时 器 中 断 时 ， 复 制 并 清除 所 有 页 面 
的 引用 位 。 因 此 ， 如 果 发 生 缺 页 错误 ， 那 么 可 以 检查 当前 的 引用 位 和 位 于 内 存 的 两 个 位 ， 这 
两 位 可 以 确定 在 过 去 的 10 000 ~ 15 000 个 引用 之 间 该 页 面 是 否 被 使 用 过 。 如 果 使 用 过 ， 那 
么 这 些 位 中 至 少 有 一 位 会 被 打开 。 如 果 没 有 使 用 过 ， 那 么 这 些 位 会 被 关闭 。 至 少 有 一 位 打开 
的 页 面 会 被 视 为 在 工作 集中 。 

注意 ， 这 种 安排 并 不 完全 准确 ， 这 是 因为 并 不 知道 在 5000 个 引用 内 的 什么 位 置 出 现 了 
引用 。 通 过 增加 历史 位 的 数量 和 中 断 的 频率 〈 例 如 ，10 位 和 每 1000 个 引用 中 断 一 次 )， 可 以 
降低 这 一 不 确定 性 。 然 而 ， 服 务 这 些 更 为 频繁 中 断 的 成 本 也 会 相应 更 高 。 


9.6.3 ” 缺 页 错误 频率 


虽然 工作 集 模型 是 成 功 的 而 且 工 作 集 的 知识 能 够 用 于 预先 调 页 ( 9.9.1 节 ), 但 是 用 于 控 
制 拌 动 似乎 有 点 策 拙 。 采 用 缺 页 错误 频率 ( Page-Fault Frequency, PFF) 的 策略 是 一 种 更 为 
直接 的 方法 。 

这 里 的 问题 是 防止 抖动 。 抖 动 具有 高 缺 页 错误 率 。 因 此 ， 需 要 控制 缺 页 错误 率 。 当 缺 页 
错误 率 太 高 时 ， 我 们 知道 该 进程 需要 更 多 的 帧 。 相 反 ， 如 果 缺 页 错误 率 太 低 ， 则 该 进程 可 能 
具有 太 多 的 帧 。 我 们 可 以 设置 所 需 缺 页 错误 率 的 上 下 限 (图 9-21 )。 如 果实 际 缺 页 错误 率 超 
过 上 限 ， 则 可 为 进程 再 分 配 一 帧 ;如 果实 际 缺 页 错误 率 低 于 下 限 ， 则 可 从 进程 中 删除 一 帧 。 
因此 ， 可 以 直接 测量 和 控制 缺 页 错误 率 ， 以 防止 抖动 。 


缺 页 错误 率 





图 9-21 缺 页 错误 频率 


与 工作 集 策 略 一 样 ， 也 可 能 不 得 不 换 出 一 个 进程 。 如 果 缺 页 错误 率 增加 并 且 没 有 空闲 帧 
可 用 ， 那 么 必须 选择 某 个 进程 并 将 其 交换 到 后 备 存储 。 然 后 ， 再 将 释放 的 帧 分 配给 具有 高 缺 
页 错误 率 的 进程 。 


工作 集 与 缺 页 错误 率 

进程 的 工作 集 和 它 的 缺 页 错误 率 之 间 存 在 直接 关系 。 通 常 ， 如 图 9-20 所 示 ， 随 着 代 
码 和 数据 的 引用 从 一 个 局 部 迁移 到 另 一 个 局 部 ， 进 程 工作 集 随 着 时 间 的 推移 而 改变 。 假 设 
有 足够 的 内 存 来 存储 进程 的 工作 集 (也 就 是 说 ， 进 程 没有 拌 动 )， 进程 的 缺 页 错误 率 将 随 
着 时 间 在 峰值 各 谷 值 之 间 和 转换。 这 种 行为 如 下 图 所 示 : 
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工作 集 


缺 页 错误 率 





时 间 

当 为 新 的 局 部 请 求 调 页 时 ， 缺 页 错误 率 的 峰值 出 现 。 然 而 ， 一 旦 这 个 新 局 部 的 工作 
集 已 在 内 存 中 ， 缺 页 错误 率 就 会 下 降 。 当 进程 进入 一 个 新 的 工作 集 ， 缺 页 错误 率 又 一 次 升 
到 波峰 ; 然后 ， 随 着 工作 集 加 载 到 内 存 ， 而 再 次 降 到 波 谷 。 一 个 峰 的 开始 和 下 一 个 峰 的 开 
台 之 间 的 时 间 跨 度 ， 表 示 从 一 个 工作 集 到 另 一 个 工作 集 的 转变 。 


9.6.4 ”结束 语 


实际 上 ， 拌 动 及 其 导致 的 交换 对 性 能 的 负面 影响 很 大 。 目 前 处 理 这 一 问题 的 最 佳 实践 
是 ,在 可 能 的 情况 下 提供 足够 物理 内 存 以 避免 拌 动 和 交换 。 从 智能 手机 到 大 型 机 ， 提 供 足 够 
内 存 ， 可 以 保持 所 有 工作 集 都 并 发 地 处 在 内 存 中 ,并且 提 供 最 好 的 用 户 体验 (除非 在 极端 条 
件 下 )。 


9.7 内存 映射 文件 


假设 采用 标准 系统 调用 open), read() 和 write() 来 顺序 读 取 磁盘 文件 。 每 个 文件 
访问 都 需要 系统 调用 和 磁盘 访问 。 或 者 ， 采 用 所 讨论 的 虚拟 内 存 技术 ， 以 将 文件 IO 作为 常 
规 内 存 访 问 。 这 种 方法 称 为 内 存 映 射 ( memory mapping) 文件 ， 人 允许 一 部 分 虚拟 内 存 与 文件 
进行 逻辑 关联 。 正 如 我 们 将 会 看 到 的 ， 这 可 能 导致 显著 的 性 能 提高 。 


9.7.1 基本 机 制 


实现 文件 的 内 存 映 射 是 ， 将 每 个 磁盘 块 映射 到 一 个 或 多 个 内 存 页 面 。 最 初 ， 文 件 访 问 按 
普通 请 求 调 页 来 进行 ， 从 而 产生 缺 页 错误 。 这 样 ， 文 件 的 页 面 大 小 部 分 从 文件 系统 读 取 到 物 
理 页 面 (有 些 系统 可 以 选择 一 次 读 取 多 个 页 面 大 小 的 数据 块 )。 以 后 ,文件 的 读 写 就 按 常规 
内 存 访问 来 处 理 。 通 过 内 存 的 文件 操作 ,没有 采用 系统 调用 read() 和 write() 的 开销 ， 而 
且 简 化 了 文件 的 访问 和 使 用 。 

请 注意 ， 内 存 映 射 文件 的 写 入 不 一 定 是 对 磁盘 文件 的 即时 (同步) 写 入 。 有 的 操作 系统 
定期 检查 文件 的 内 存 映射 页 面 是 否 已 被 修改 ， 以 便 选择 是 否 更 新 到 物理 文件 。 当 关闭 文件 
时 ， 所 有 内 存 映射 的 数据 会 写 到 磁盘 ， 并 从 进程 虚拟 内 存 中 删除 。 

有 些 操作 系统 仅 通过 特定 的 系统 调用 来 提供 内 存 映射 ， 而 通过 标准 的 系统 调用 来 处 理 
所 有 其 他 文件 UO。 然 而 ， 有 的 系统 不 管 文件 是 否 指定 为 内 存 映射 ， 都 选择 对 文件 进行 内 
存 映射 。 我 们 以 Solaris 为 例 。 如 果 一 个 文件 指定 为 内 存 映射 (采用 系统 调用 mmap() )， 那 
么 Solaris 会 将 该 文件 映射 到 进程 地 址 空间 。 如 果 一 个 文件 通过 普通 系统 调用 ， 如 open()、 
read() 和 write() 来 打开 和 访问 ， 那 么 Solaris 仍然 采用 内 存 映射 文件 ; 然而 ， 这 个 文件 是 
映射 到 内 核 地 址 空间 。 无 论文 件 如 何 打 开 ，Solaris 都 将 所 有 文件 IO 视 为 内 存 映 射 的 ， 以 允 
许 文 件 访问 在 高 效 的 内 存 子 系统 中 进行 。 
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多 个 进程 可 以 允许 并 发 地 内 存 映 射 同一 文件 ， 以 便 允 许 数据 共享 。 任 何 一 个 进程 的 写 人 会 
修改 虚拟 内 存 的 数据 ， 并 且 其 他 映射 同一 文件 部 分 的 进程 都 可 看 到 。 根 据 虚 拟 内 存 的 相关 知识 ， 
可 以 清楚 地 看 到 内 存 映 射 部 分 的 共享 是 如 何 实现 的 : 每 个 共享 进程 的 虚拟 内 存 映射 指向 物理 内 
存 的 同一 页 面 ， 而 该 页 面 有 磁盘 块 的 复制 。 这 种 内 存 共享 如 图 9-22 所 示 。 内 存 映射 系统 调用 还 
可 以 支持 写 时 复制 功能 ， 人 允许 进程 既 可 以 按 只 读 模式 来 共享 文件 ， 也 可 以 拥有 自己 修改 的 任何 
数据 的 副本 。 为 了 协调 对 共享 数据 的 访问 ， 有 关 进 程 可 以 使 用 第 6 章 描述 的 实现 互 斥 的 机 制 。 





磁盘 文件 
图 9-22 内存 映射 文件 


很 多 时 候 ， 共 享 内 存 实 际 上 是 通过 内 存 映射 来 实现 的 。 在 这 种 情况 下 ， 进 程 可 以 通过 共 
享 内 存 来 通信 ， 而 共享 内 存 是 通过 映射 同样 文件 到 通信 进程 的 虚拟 地 址 空间 来 实现 的 。 内 存 
映射 文件 充当 通信 进程 之 间 的 共享 内 存 区 域 (图 9-23 )。 我 们 已 经 在 3.4.1 节 中 看 到 了 这 一 
点 : 首先 创建 POSIX 共享 内 存 对 象 ， 然 后 每 个 通信 进程 内 存 对 象 映射 到 其 地 址 空间 。 在 接 
[424] 下 来 的 部 分 ， 将 说 明 Windows API 如 何 支持 通过 内 存 映射 文件 的 内 存 共享 。 


进程 ! 进程 2 


Ssn. 内 存 映射 文件 


pa MET ~ 





图 9-23 ”采用 内 存 映射 VO 的 共享 内 存 


9.7.2 ”共享 内 存 Windows API 


通过 内 存 映射 文件 的 Windows API 以 创建 共享 内 存 区 域 的 大 致 过 程 是 这 样 的 : 首先 为 
要 映射 的 文件 创建 文件 映射 (file mapping)， 接 着 在 进程 虚拟 地 址 空间 中 建立 映射 文件 的 视 
图 (view)。 另 一 个 进程 可 以 打开 映射 的 文件 ， 并 且 在 虚拟 地 址 空间 中 创建 它 的 视图 。 了 映射 
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文件 表示 共享 内 存 对 象 ， 以 便 进程 能 够 通信 。 

接 下 来 更 详细 地 说 明 这些 步 又 。 首 先 ， 生 产 者 进程 使 用 Windows API 中 的 内 存 映 射 功 
能 来 创建 共享 内 存 对 象 。 接 着 ， 生 产 者 将 消息 写 人 共享 内 存 。 然 后 ， 消 费 者 进程 打开 对 共享 
内 存 对 象 的 映射 ， 并 读 取 生产 者 写 人 的 消息 。 

为 了 建立 内 存 映 射 文件 ， 进 程 首 先 通 过 函数 CreateFile() 打开 需要 映射 的 文件 ， 并 得 
到 打开 文件 的 HANDLE (句柄 )。 接 着 ， 进 程 通过 函数 CreateFileMapping() 创建 这 个 文件 
的 映射 。 一 旦 建立 了 文件 映射 ， 进 程 然后 通过 函数 MapView0fFile()， 在 虚拟 地 址 空间 中 
建立 映射 文件 的 视图 。 映 射 文件 的 视图 表示 位 于 进程 虚拟 地 址 空间 中 的 映射 文件 的 部 分 ， 可 
以 是 整个 文件 或 者 是 映射 文件 的 一 部 分 。 图 9-24 的 所 示 程 序 说 明了 这 个 顺序 。( 为 使 代码 简 
洁 ， 这 里 省 略 了 大 量 的 错误 检查 。) 


#include <windows.h> 
#include <stdio.h> 


int main(int argc, char *argv([]) 


HANDLE hFile, hMapFile; 
LPVOID lpMapAddress; 


hFile = CreateFile("temp.txt", /* file name */ 
GENERIC READ | GENERIC_WRITE, /* read/write access */ 
0, /* no sharing of the file */ 
NULL, /* default security */ 
OPEN_ALWAYS, /* open new or existing file */ 
FILE_ATTRIBUTE_NORMAL, /* routine file attributes */ 
NULL); /* no file template */ 


hMapFile = CreateFileMapping(hFile, /* file handle */ 
NULL, /* default security */ 
PAGE-READWRITE, /* read/write access to mapped pages */ 
0, /* map entire file */ 


0, 
TEXT("Shared0bject")); /* named shared memory object */ 


lpMapAddress = MapView0fFile(hMapFile, /* mapped object handle */ 
FILE_MAP_ALL_ACCESS, /* read/write access */ 
0, /* mapped view of entire file */ 
0 


0); 
/* write to shared memory */ 
sprintf (lpMapAddress,"Shared memory message"); 
UnmapView0fFile(1pMapAddress) ; 


CloseHandle(hFile) ; 
CloseHandle(hMapFile) ; 





图 9-24 生产 者 通过 Windows API 写 人 共享 内 存 


调用 CreateFileMapping() 创建 一 个 名 为 Shared0bject 的 命名 共享 内 存 对 象 (named 
shared-memory object)。 消 费 者 进程 创建 这 个 命名 对 象 的 映射 ， 从 而 利用 这 个 共享 内 存 段 进行 
通信 。 接 着 ， 生 产 者 在 它 的 虚拟 地 址 空间 中 创建 内 存 映 射 文件 的 视图 。 通 过 将 0 传递 给 最 后 三 
个 参数 ， 表 明 映 射 的 视图 为 整个 文件 。 通 过 传递 指定 的 偏 移 和 大 小 ， 这 样 创建 的 视图 只 包含 文 
件 的 一 部 分 。( 注 意 ， 在 建立 映射 后 ， 整 个 映射 可 能 不 会 加 载 到 内 存 中 。 映 射 文件 可 能 是 请 求 
调 页 的 ， 因 此 只 有 在 被 访问 时 才 将 所 需 页 面 加 载 到 内 存 。) 函数 MapViewOfFile() 返回 共享 内 
存 对 象 的 指针 ， 因 此 ， 对 这 个 内 存 位 置 的 任何 访问 就 是 对 共享 内 存 文件 的 访问 。 在 这 个 例子 
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中 ， 生 产 者 进程 将 消息 "Shared memory message" 写 到 共享 内 存 。 

图 9-25 的 所 示 程 序 说 明了 ， 消 费 者 进程 如 何 建立 命名 共享 内 存 对 象 的 视图 。 这 个 程序 
比 图 9-24 的 程序 要 简单 ， 因 为 这 个 进程 所 需 做 的 就 是 创建 一 个 到 现 有 的 命名 共享 内 存 对 象 
的 映射 。 消 费 者 进程 也 必须 创建 映射 文件 的 视图 ， 这 与 图 9-24 的 生产 者 进程 一 样 。 然 后 ， 
消费 者 就 从 共享 内 存 中 读 取 由 生产 者 进程 写 人 的 消息 "Shared memory message", 





#include <windows.h> 
#include <stdio.h> 


int main(int argc, char *argv[]) 


HANDLE hMapFile; 
LPVOID lpMapAddress; 


hMapFile = OpenFileMapping(FILE_MAP_ALL_ACCESS, /* R/W access */ 
FALSE, /* no inheritance */ 
TEXT("SharedObject")); /* name of mapped file object */ 


lpMapAddress = MapViewOfFile(hMapFile, /* mapped object handle */ 

FILE_MAP_ALL_ACCESS, /* read/write access */ 

0, /* mapped view of entire file */ 

0， 
0); 
/* read from shared memory */ 


printf("Read message 4s", lpMapAddress) ; 


UnmapViewOfFile (1pMapAddress) ; 
CloseHandle (hMapFile) ; 








9-25 ”消费 者 通过 Windows API 从 共享 内 存 中 读 取 数据 


最 后 ， 两 个 进程 调用 UnmapView0fFile() 来 删除 映射 文件 的 视图 。 在 本 章 结 尾 ， 给 出 
了 一 个 编程 练习 ， 以 通过 Windows API 的 内 存 映射 来 利用 共享 内 存 。 


9.7.3 ”内存 映 射 1O 


在 IO 的 情况 下 ， 如 1.2.1 节 所 述 ， 每 个 VO 控制 器 包括 保存 命令 和 传输 数据 的 寄存 器 。 
通常 ， 专 用 IO 指令 允许 在 这 些 寄存 器 和 系统 内 存 之 间 进 行 数据 传输 。 为 了 更 方便 地 访问 
IO 设备 ， 许 多 计算 机 体系 结构 提供 了 内 存 映射 1O (memory-mapped IO ) 。 在 这 种 情况 下 ， 
一 组 内 存 地 址 专门 映射 到 设备 寄存 器 。 对 这 些 内 存 地 址 的 读 取 和 写 和 人 人， 导致 数据 传 到 或 取 自 
设备 寄存 器 。 这 种 方法 适用 于 具有 快速 响应 时 间 的 设备 ， 例 如 视频 控制 器 。 对 于 IBM PC, 
屏幕 上 的 每 个 位 置 都 映射 到 一 个 内 存 位 置 。 在 屏幕 上 显示 文本 几乎 和 将 文本 写 人 适当 内 存 映 
射 位 置 一 样 简单 。 

内 存 映 射 IO 也 适用 于 其 他 设备 ， 如 用 于 联结 modem 和 打印 机 的 计算 机 串口 和 并 口 。 
通过 读 取 和 写 人 这 些 设备 寄存 器 ( 称 为 I/O 端口 (IO port)), CPU 可 以 对 这 些 设备 传输 数 
据 。 为 了 通过 内 存 映射 串 行 端口 发 送 一 长 串 字 节 ，CPU 将 一 个 数据 字 节 写 到 数据 寄存 器 ， 
并 将 控制 寄存 器 的 一 个 位 置 位 以 表示 有 字 节 可 用 。 设 备 读 取 数据 字 节 ， 并 清 零 控制 寄存 器 的 
指示 位 ， 以 表示 已 准备 好 接收 下 一 个 字 节 。 接 着 ，CPU 可 以 传输 下 一 个 字 节 。 如 果 CPU RK 
用 轮 询 监 视 控 制 位 ， 不 断 循环 查看 设备 是 否 就 绊 ， 这 种 操作 称 为 程序 MO (Programmed I/O, 
PIO), WR CPU 不 是 轮 询 控制 位 ， 而 是 在 设备 准备 接收 一 个 字 节 时 收 到 中 断 ， 则 数据 传输 
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称 为 中 断 驱动 (interrupt driven). 


9.8 分 配 内 核 内 存 


当 在 用 户 模式 下 运行 进程 请 求 额外 内 存 时 ， 从 内 核 维护 的 空闲 页 帧 列表 上 分 配 页 面 。 这 
个 列表 通常 使 用 页 面 置换 算法 (如 9.4 节 所 述 的 ) 来 填充 ， 如 前 所 述 ， 它 很 可 能 包含 散布 在 
物理 内 存 中 的 空闲 页 面 。 也 要 记 住 ， 如 果 用 户 进 程 请 求 单个 字 节 内 存 ， 那 么 就 会 导致 内 部 碎 
片 ， 因 为 进程 会 得 到 整个 帧 。 
用 于 分 配 内 核 内 存 的 空闲 内 存 池 通 常 不 同 于 用 于 普通 用 户 模式 进程 的 列表 。 这 有 两 个 主 
要 原因 : 
© 内 核 需 要 为 不 同 大 小 的 数据 结构 请 求 内 存 ， 其 中 有 的 小 于 一 页 。 因 此 ， 内 核 应 保守 
地 使 用 内 存 ， 并 努力 最 小 化 碎片 浪费 。 这 一 点 非常 重要 ， 因 为 许多 操作 系统 的 内 核 
代码 或 数据 不 受 调 页 系统 的 控制 。 
o 用 户 模式 进程 分 配 的 页 面 不 必 位 于 连续 物理 内 存 。 然 而 ， 有 的 硬件 设备 与 物理 内 存 直 接 
交互 ， 即 无 法 享有 虚拟 内 存 接口 带 来 的 便利 ， 因 而 可 能 要 求 内 存 常 驻 在 连续 物理 内 存 中 。 
下 面 讨论 两 个 策略 ， 以 便 管 理 用 于 内 核 进程 的 空闲 内 存 :“ 伙 伴 系统 ”和 slab 分 配 。 


9.8.1 伙伴 系统 


伙伴 系统 (buddy system) 从 物理 连续 的 大 小 固定 的 段 上 进行 分 配 。 从 这 个 段 上 分 配 内 
存 ， 采 用 2 HDB ( power-of-2 allocator) 来 满足 请 求 分 配 单元 的 大 小 为 2 WE (4KB、 
8KB、16KB 等 )。 请 求 单元 的 大 小 如 不 适当 ， 就 圆 整 到 下 一 个 更 大 的 2 的 需 。 例 如 ， 如 果 请 
求 大 小 为 11KB， 则 按 16KB 的 段 来 请 求 。 

让 我 们 考虑 一 个 简单 例子 。 假 设 内 存 段 的 大 小 最 初 为 256KB， 内 核 请 求 21KB 的 内 存 。 
最 初 ， 这 个 段 分 为 两 个 伙伴 PR AL 和 如， 每 个 的 大 小 都 为 128KB ; 这 两 个 伙伴 之 一 进 一 
步 分 成 两 个 64KB 的 伙伴 ， 即 BL 和 Br。 然而 ， 从 21KB 开始 的 下 一 个 大 的 2 的 过 是 32KB， 
因此 BL 或 Br 再 次 划分 为 两 个 32KB 的 伙伴 CL 和 Cr。 因 此， 其 中 一 个 32KB 的 段 可 用 于 满 
足 21KB 请 求 。 这 种 方案 如 图 9-26 所 示 ， 其 中 Ci 段 是 分 配给 21KB 请 求 的 。 

伙伴 系统 的 一 个 优点 是 : 通过 称 为 合并 
(coalesce) 的 技术 ， 可 以 将 相 邻 伙伴 快速 组 物理 连续 的 页 面 
合 以 形成 更 大 分 段 。 例 如 ， 在 图 9-26 中 ， 当 
内 核 释 放 已 被 分 配 的 Ci 时， 系统 可 以 将 CL 
和 CR 合并 成 64KB 的 段 。 段 BL 继而 可 以 与 
伙伴 Br 合并， 以 形成 128KB 段 。 最 终 ， 可 
以 得 到 原来 的 256KB BE, 

伙伴 系统 的 明显 缺点 是 : 由 于 圆 整 到 下 
一 个 2 的 宕 ， 很 可 能 造成 分 配 段 内 的 碎片 。 
例如 ，33KB 的 内 存 请 求 只 能 使 用 64KB 段 
来 满足 。 事 实 上 ， 我 们 不 能 保证 因 内 部 碎片 
而 浪费 的 单元 一 定 少 于 50%。 下 一 节 会 探 
讨 一 种 内 存 分 配方 案 ， 它 没有 因 碎 片 而 损失 w 
空间 。 图 9-26 伙伴 系统 分 配 
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9.8.2 slab 分配 


分 配 内 核 内 存 的 第 二 种 策略 称 为 slab 分 配 (slab allocation), 4^ slab 由 一 个 或 多 个 
物理 连续 的 页 面 组 成 。 每 个 cache 由 一 个 或 内 核对 象 高 速 缓存 
多 个 slab 组 成 。 每 个 内 核 数 据 结 构 都 有 一 个 O 
cache， 例 如 ， 用 于 表示 进程 描述 符 、 文 件 对 
象 、 信 和 号 量 等 的 数据 结构 都 有 各 自 单独 的 
cache。 每 个 cache 含有 内 核 数 据 结构 的 对 象 
实例 ( 称 为 object)。 例 如 ， 信 号 量 cache 有 
信号 量 对 象 ， 进 程 描述 符 cache 有 进程 描述 
符 对 象 ， 等 等 。 图 9-27 显示 了 slab 、cache 
及 object 三 者 之 间 的 关系 。 该 图 显示 了 2 个 
大 小 为 3KB 的 内 核对 象 和 3 个 大 小 为 7KB 
的 对 象 ， 它 们 位 于 各 自 的 cache 中 。 

slab 分 配 算法 采用 cache 来 存储 内 核对 are Lee 
象 。 在 创建 cache 时 ， 若 干 起 初 标记 为 free 的 对 象 被 分 配 到 caches cache 内 的 对 象 数 量 取 
决 于 相关 slab 的 大 小 。 例 如 ，12KB slab (由 3 个 连续 的 4KB 页 面 组 成 ) 可 以 存储 6 个 2KB 
对 象 。 最 初 ，cache 内 的 所 有 对 象 都 标记 为 空闲 。 当 需要 内 核 数据 结构 的 新 对 象 时 ， 分 配器 
可 以 从 cache 上 分 配 任何 空闲 对 象 以 便 满 足 请 求 。 从 cache 上 分 配 的 对 象 标记 为 used( 使 用 )。 

让 我 们 考虑 一 个 场景 ， 这 里 内 核 为 表示 进程 描述 符 的 对 象 从 slab 分 配器 请 求 内 存 。 在 
Linux 系统 中 ， 进 程 描述 符 属 于 struct task_struct 类 型 ， 它 需要 大 约 1.7KB 的 内 存 。 当 
Linux 内 核 创建 一 个 新 任务 时 ， 它 从 cache 中 请 求 struct task_struct 对 象 的 必要 内 存 。 
cache 利用 已 经 在 slab 中 分 配 的 并 且 标记 为 free (空闲 ) 的 struct task_struct X ZI 
足 请 求 。 

在 Linux 中 ，slab 可 以 处 于 三 种 可 能 状态 之 一 : 

o iA) (full): slab 的 所 有 对 象 标记 为 使 用 。 

e 空 的 (empty): slab 上 的 所 有 对 象 标 记 为 空闲 。 

o 部 分 (partial): slab 上 的 对 象 有 的 标记 为 使 用 ， 有 的 标记 为 空闲 。 
slab 分 配器 首先 尝试 在 部 分 为 空 的 slab 中 用 空闲 对 象 来 满足 请 求 。 如 果 不 存在 ， 则 从 空 的 
slab 中 分 配 空闲 对 象 。 如 果 没 有 空 的 slab 可 用 ， 则 从 连续 物理 页 面 分 配 新 的 slab， 并 将 其 分 
配给 cache; 从 这 个 slab 上 ， 再 分 配对 象 内 存 。 

slab 分 配器 提供 两 个 主要 优点 : 

e 没有 因 碎 片 而 引起 内 存 浪费 。 碎 片 不 是 问题 ， 因 为 每 个 内 核 数据 结构 都 有 关联 的 
cache， 每 个 cache 都 由 一 个 或 多 个 slab 组 成 ， 而 slab 按 所 表示 对 象 的 大 小 来 分 块 。 
因此 ， 当 内 核 请 求 对 象 内 存 时 ，slab 分 配器 可 以 返回 刚好 表示 对 象 的 所 需 内 存 。 

e 可 以 快速 满足 内 存 请 求 。 因 此 ， 当 对 象 频繁 地 被 分 配 和 释放 时 ， 如 来 自 内 核 请 求 的 
情况 ，slab 分 配方 案 在 管理 内 存 时 特别 有 效 。 分 配 和 释放 内 存 的 动作 可 能 是 一 个 耗 
时 过 程 。 然 而 ， 由 于 对 象 已 预先 创建 ， 因 此 可 以 从 cache 中 快速 分 配 。 再 者 ， 当 内 核 
用 完 对 象 并 释放 它 时 ， 它 被 标记 为 空闲 并 返回 到 cache， 从 而 立即 可 用 于 后 续 的 内 核 


请 求 。 


slab 
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slab 分 配器 首先 出 现在 Solaris 2.4 内 核 中 。 由 于 通用 性 质 ，Solaris 现在 也 将 这 种 分 配 
器 用 于 某 些 用 户 模式 的 内 存 请 求 。 最 初 ，Linux 使 用 的 是 伙伴 系统 ; 然而 ， 从 版 本 2.2 开始 ， 
Linux 内 核 采 用 slab 分 配器 。 

HE, 最近 发 布 的 Linux 也 包括 另外 两 个 内 核 内 存 分 配器 ，SLOB 和 SLUB 分 配器 。 
(Linux 将 slab 实现 称 为 SLAB.) 

简单 块 列表 (Simple List of Block, SLOB) 分 配器 用 于 有 限 内 存 的 系统 ， 例 如 舱 入 式 系 
统 。 SLOB 工作 采用 3 个 对 象 列表 : 小 (用 于 小 于 256 字 节 的 对 象 )、 中 (用 于 小 于 1024 字 
节 的 对 象 ) 和 大 (用 于 小 于 1024 字 节 的 对 象 )。 内 存 请 求 采用 首先 适应 策略 ， 从 适当 大 小 的 
列表 上 分 配对 象 。 

从 版 本 2.6.24 开始，SLUB 分 配器 取代 SLAB, 成 为 Linux 内 核 的 默认 分 配器 。SLUB 
通过 减少 SLAB 分 配器 所 需 的 大 量 开 销 ， 来 解决 slab 分 配 的 性 能 问题 。 一 个 改变 是 : 在 
SLAB 分 配 下 每 个 slab 存储 的 元 数据 ， 移 到 Linux 内 核 用 于 每 个 页 面 的 结构 page。 此 外 ， 
对 于 SLAB 分 配器 ， 每 个 CPU 都 有 队列 以 维护 每 个 cache 内 的 对 象 ，SLUB 会 删除 这 些 队 
列 。 对 于 具有 大 量 处 理 器 的 系统 ， 分 配给 这 些 队列 的 内 存量 是 很 重要 的 。 因 此 ， 随 着 系统 处 
理 器 数量 的 增加 ，SLUB 性 能 也 更 好 。 


9.9 其 他 注意 事项 


我 们 对 调 页 系统 做 出 的 主要 决定 是 选择 置换 算法 和 分 配 策略 ， 这 些 在 本 章 前 面 已 经 讨论 
过 ， 还 有 很 多 其 他 的 事项 ， 在 这 里 讨论 几 个 。 


9.9.1 fii A E 


纯 请 求 调 页 的 一 个 明显 特性 是 ， 当 进程 启动 时 ， 发 生 大 量 的 缺 页 错误 。 这 种 情况 源 于 
试图 将 最 初 局 部 调 到 内 存 。 在 其 他 时 候 也 可 能 会 出 现 同样 的 情况 。 例 如 ， 当 换 出 进程 重新 启 
动 时 ， 它 的 所 有 页 面 都 在 磁盘 上 ， 而 且 每 个 页 面 都 会 通过 缺 页 错误 而 调 进 内存 。 预 调 页 面 
( prepaging) 试图 阻止 这 种 大 量 的 最 初 调 页 。 这 种 策略 是 同时 调 进 所 需 的 所 有 页 面 。 有 的 操 
作 系 统 (如 Solaris) 对 于 小 文件 采用 预 调 页 面 。 

例如 ， 对 于 采用 工作 集 模型 的 系统 ， 可 以 为 每 个 进程 保留 一 个 位 于 工作 集 内 的 页 面 列 
表 。 当 一 个 进程 必须 暂停 时 (由 于 IO 的 等 待 或 空闲 帧 的 缺少 )， 它 的 进程 工作 集 也 应 记 住 。 

当 这 个 进程 被 重启 时 (由 于 IO 已 经 完成 或 已 有 足够 的 可 用 空闲 帧 )， 在 重启 之 前 自动 调 入 它 
的 整个 工作 集 。 

在 有 些 情况 下 ， 预 调 页 面 可 能 具有 优点 。 问 题 在 于 ， 采 用 预 调 页 面 的 成 本 是 否 小 于 处 理 
相应 缺 页 错误 的 成 本 。 通 过 预 调 页 面 而 调 进 内 存 的 许多 页 面 也 有 可 能 没有 使 用 。 

假设 预 调 s 个 页 面 ， 而且 这 s 个 页 面 的 a 部 分 被 实际 使 用 了 (0 < a <1), 问题 是 ， 
节省 的 sxXa 个 缺 页 错误 的 成 本 是 大 于 还 是 小 于 预 调 其 他 sxX (1 - o 个 不 必要 页 面 的 成 本 。 
如 果 a 接近 0， 那么 预 调 页 面 失 败 ; WR a 接近 1， 那么 预 调 页 面 成 功 。 


9.9.2 ”页面 大 小 


对 于 现 有 机 器 ， 操作 系统 设计 人 员 很 少 可 以 选择 页 面 大 小 。 然而， 对 于 正在 设计 的 新 机 
器 ， 必 须 对 最 佳 页 面 大 小 做 出 决定 。 正 如 你 所 预期 的 ， 并 不 存在 单一 的 最 佳 页 面 大 小 ， 而 是 
有 许多 因素 在 影响 页 面 大 小 。 页 面 大 小 总 是 2 的 寡 ,， 通 常 为 4096( 22 ) 一 4 194 304( 2”) FW. 
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如 何 选 择 页 面 大 小 ”一 个 关注 点 是 页 表 的 大 小 。 对 于 给 定 的 虚拟 内 存 空间 ， 减 小 页 面 大 
小 增加 了 页 面 的 数量 ， 从 而 增加 了 页 表 的 大 小 。 例如， 对 于 4MB (2”) 的 虚拟 内 存 ， 如 页 
面 大 小 为 1024 字 节 ， 则 有 4096 个 页 面 ; 而 页 面 大 小 为 819 字 节 ， 就 只 有 512 个 页 面 。 因 
为 每 个 活动 进程 必须 有 自己 的 页 表 ， 所 以 期 望 大 的 页 面 。 

然而 ， 较 小 的 页 面 可 以 更 好 地 利用 内 存 。 如 果 进 程 从 位 置 00000 开始 分 配 内 存 ， 并 且 继 
续 直 到 拥有 所 需 的 内 存 为 止 ， 则 它 可 能 不 会 正好 在 页 面 边界 上 结束 。 因 此 ， 最 后 页 面 的 一 部 
分 必须 被 分 配 (因为 页 面 是 分 配 的 单位 )， 但 并 未 被 使 用 (产生 内 部 碎片 )。 假 设 进程 大 小 和 
页 面 大 小 相互 独立 ， 可 以 预期 。 平 均 来 说 ， 每 个 进程 最 后 页 面 的 一 半 会 被 浪费 。 对 于 512 F 
节 的 页 面 ， 损 失 为 256 字 节 ; 对 于 8192 字 节 的 页 面 ， 损 失 为 4096 字 节 。 这 样 ， 为 了 最 小 化 
内 部 碎片 ， 需 要 一 个 较 小 的 页 面 。 

另 一 个 问题 是 读 取 或 写 入 页面 所 需 时 间 。IO 时 间 包 括 寻 道 、 延 迟 和 传输 时 间 。 传 输 时 
间 与 传输 数量 ( 即 页 面 大 小 ) 成 正比 ， 这 个 事实 似乎 需要 较 小 的 页 面 。 然而， 正如 12.1.1 节 
会 看 到 的 ， 延 迟 和 寻 道 时 间 通 常 远 远 超过 传输 时 间 。 当 传输 率 为 2MB/s 时 ,传输 512 字 节 
只 需要 0.2ms。 然 而 ， 延迟 时 间 可 能 为 gms， 而 且 寻 道 时 间 为 20ms。 因 此 ， 在 总 的 IO 时 间 
(28.2ms) 中 ， 只 有 1% 归于 实际 转移 。 加 倍 页 面 大 小 将 IO 时 间 增 加 到 仅 为 28.4ms。 需 要 
28.4ms 来 读 取 1024 字 节 的 单个 页 面 ， 但 是 需要 56.4ms 来 读 取 页 面 大 小 为 512 字 节 的 2 个 
页 面 。 因 此 ， 最 小 化 WO 时 间 期 望 较 大 的 页 面 大 小 。 

然而 ,采用 较 小 页 面 大 小 应 该 减少 总 的 10， 因 为 局 部 性 会 被 改进 。 较 小 页 面 允许 每 
个 页 面 更 精确 地 匹配 程序 的 局 部 性 。 例 如 ， 考 虑 一 个 大 小 为 200KB 的 进程 ， 其 中 只 有 一 半 
( 100KB) 用 于 实际 执行 。 如 果 只 有 一 个 大 的 页 面 ， 则 必须 调 人 整个 页 面 ， 总 共 传 输 和 分 配 
200KB。 相 反 ， 如 果 每 个 页 面具 有 1 字 节 ， 则 可 以 只 调 入 实际 使 用 的 100KB ， 导 致 只 传输 和 
分 配 100KB。 采 用 较 小 页 面 ， 会 有 更 好 的 精度 (resolution)， 以 允许 只 隔离 实际 需要 的 内 存 。 
采用 较 大 页 面 ， 不 仅 必须 分 配 并 传输 所 需要 的 内 容 ， 而 且 还 包括 其 他 碰巧 在 页 面 内 的 且 并 不 
需要 的 内 容 。 因 此 ， 较 小 页 面 应 导致 更 少 的 IJO 和 更 少 的 总 的 分 配 内 存 。 

然而 ， 你 是 否 注意 到 ， 采 用 1 字 节 的 页 面 会 导致 每 个 字 节 引起 缺 页 错误 ?对 于 大 小 为 
200KB 的 只 使 用 一 半 内 存 的 进程 ， 采 用 200KB 的 页 面 只 产生 一 个 缺 页 错误 ， 而 采用 1 字 节 
的 页 面 会 产生 102 400 个 缺 页 错误 。 每 个 缺 页 错误 产生 大 量 开销 ， 以 便 处 理 中 断 、 保 存 寄存 
器 、 置 换 页 面 、 排 队 等 待 调 页 设备 和 更 新 表 。 为 了 最 小 化 缺 页 错误 的 数量 ， 需 要 有 较 大 的 
页 面 。 

还 有 其 他 因素 应 该 考虑 (例如 页 面 大 小 和 调 页 设备 的 扇 区 大 小 的 关系 )。 这 个 问题 没有 
最 佳 答案 。 正 如 已 经 看 到 的 ， 一 些 因 素 (内 部 碎片 、 局 部 性 ) 需要 小 的 页 面 ， 而 其 他 因素 
(4), VOM) 需要 大 的 页 面 。 然 而 ， 发 展 趋势 是 趋向 更 大 的 页 面 ， 即 使 移动 系统 也 是 
这 样 。 事 实 上 ， 第 1 版 的 《操作 系统 概念 》( 1983 ) 采用 4096 字 节 作为 页 面 大 小 的 上 限 ， 这 个 
值 是 1990 年 最 常用 的 页 面 大 小 。 正 如 下 一 节 将 看 到 的 ， 现 代 系 统 如 今 可 以 采用 更 大 的 页 面 。 


9.9.3 TLB 范围 


第 8 章 讨论 了 TLB 命中 率 ( hit ratio)。 回 想 一 下 ，TLB 的 命中 率 指 的 是 ， 通 过 TLB 而 
非 页 表 所 进行 的 虚拟 地 址 转换 的 百分比 。 显 然 ,命中 率 与 TLB 的 条 目 数 有 关 ， 增 加 命中 率 
的 方法 是 增加 TLB 的 条 目 数 。 然 而 ， 这 并 不 简单 ， 因 为 用 于 构造 TLB 的 关联 内 存 既 昂贵 又 
耗 能 。 


BOF ERIE 295 


与 命中 率 相 关 的 另 一 类 似 的 度量 是 TLB 范围 ( TLB reach). TLB 范围 指 的 是 通过 TLB 
访问 的 内 存量 ， 即 TLB 条 数 与 页 面 大 小 的 乘积 。 理 想 情 况 下 ， 进 程 的 工作 集 都 应 处 于 TLB。 
否则 ， 进 程 会 浪费 相当 多 的 时 间 ， 以 通过 页 表 而 不 是 TLB 来 进行 地 址 转换 。 如 果 TLB 条 数 [433 
加 倍 ， 则 TLB 范围 也 加 倍 。 然 而 ， 对 于 有 些 内 存 密 集 型 的 应 用 程序 ， 这 仍然 可 能 不 足以 存 
储 工作 集 。 

增加 TLB 范围 的 另 一 种 方法 是 ， 增 加 页 面 大 小 或 提供 多 个 页 面 大 小 。 如 果 增 加 页 面 
大 小 ， 例 如 从 8KB 到 32KB， 则 TLB 范围 将 翻 两 番 。 然 而 ， 对 于 不 需要 这 样 大 的 页 面 的 
某 些 应 用 ， 这 可 能 导致 碎片 的 增加 。 或 者 ， 操 作 系 统 可 以 提供 不 同 大 小 的 页 面 。 例 如 ， 
UltraSparc 支持 8KB、64KB、512KB 和 4MB 的 页 面 。 在 这 些 可 用 大 小 的 页 面 中 ，Solaris 采 
用 8KB 和 4MB 的 页 面 。 对 于 具有 64 个 条 目的 TLB，Solaris 的 TLB 范围 可 从 512KB ( 8KB 
页 面 ) 到 256MB (4MB 页 面 )。 对 于 大 多 数 应 用 程序 ，8KB 的 页 面 足够 了 ; 然而 ，Solaris 
还 是 采用 两 个 4MB 的 页 面 以 分 别 映射 内 核 代 码 和 数据 的 开始 4MB。Solaris 还 允许 应 用 程序 
(如 数据 库 ) 利用 4MB 的 大 页 面 。 

支持 多 个 大 小 的 页 面 要 求 操 作 系 统 (而 不 是 硬件 ) 来 管理 TLB。 例 如 ，TLB 条 目的 一 个 
域 应 用 于 表示 对 应 TLB 条 目的 页 面 大 小 。 通 过 软件 而 不 是 硬件 来 管理 TLB 会 降低 性 能 。 然 
m, MPRA TLB 范围 的 增加 会 提升 性 能 。 实 际 上 ， 最 近 的 趋势 倾向 于 由 软件 来 管理 TLB 
和 由 操作 系统 来 支持 不 同 大 小 的 页 面 。 


9.9.4 倒置 页 表 


8.6.3 节 引入 倒置 页 表 的 概念 。 这 种 形式 的 页 面 管理 的 目的 是 ， 减 少 跟踪 虚拟 到 物理 地 
址 转换 所 需 的 物理 内 存 数量 。 节 省 内 存 的 方法 是 ， 创 建 一 个 表 ， 该 表 为 每 个 物理 内 存 页 面 设 
置 一 个 条 目 ， 且 可 根据 《进程 ID， 页 码 》 来 索引 。 

由 于 拥有 每 个 物理 帧 保存 哪个 虚拟 内 存 页 面 的 有 关 信息 ， 倒 置 页 表 降 低 了 保存 这 种 信息 
所 需 的 物理 内 存 。 然 而 ， 倒 置 页 表 不 再 包括 进程 逻辑 地 址 空间 的 完整 信息 ; 但 是 当 所 引用 页 
面 不 在 内 存 中 时 ， 又 需要 这 种 信息 。 请 求 调 页 需要 这 种 信息 来 处 理 缺 页 错误 。 为 了 提供 这 种 
信息 ， 每 个 进程 必须 保留 一 个 外 部 页 表 。 每 个 这 样 的 页 表 看 起 来 像 传统 的 进程 页 表 ， 并 且 包 
括 每 个 虚拟 页 面 的 位 置信 息 。 

但 是 ， 外 部 页 表 会 影响 倒置 页 表 的 功用 吗 ? 由 于 这 些 页 表 仅 在 出 现 缺 页 错误 时 才 需 要 引 
用 ， 因 此 不 需要 快速 可 用 。 事 实 上 ， 它们 本 身 可 根据 需要 调 进 或 调 出 内 存 。 然 而 ， 当 一 个 缺 
页 错误 出 现时 ， 可 能 导致 虚拟 内 存 管 理 器 生成 男 一 个 缺 页 错误 ， 以 便 调 入 用 于 定位 最 初 虚拟 
页 面 所 需 的 位 于 外 存 的 页 表 ， 这 种 特殊 情况 要 求 仔 细 处 理 内核 和 页 面 查找 延迟 。 


9.9.5 程序 结构 


请 求 调 页 设计 成 对 用 户 程序 透明 。 在 许多 情况 下 ， 用 户 完 全 不 知道 内 存 的 调 页 性 质 。 然 ”4] 
而 ， 在 其 他 情况 下 ， 如 果 用 户 (或 编译 器 ) 意识 到 内 在 的 请 求 调 页 ， 则 可 改善 系统 性 能 。 

下 面 研究 一 个 人 为 的 但 却 有 用 的 例子 。 假 设 页 面 大 小 为 128 个 字 。 考 虑 一 个 C 程序 ， 
其 功能 是 将 128 x 128 数组 的 所 有 元 素 初始 化 为 0。 以 下 代码 是 很 典型 的 : 

se [126] [128) date, 

for (j = 0; j < 128; j++) 


for (i = 0; i < 128: i++) 
datati? 
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注意 ， 数 组 是 按 行 存放 的 ， 也 就 是 说 ， 数 组 存储 顺序 为 data[0] [0], aata[0] [1], =, 
data[0] [127], data[1] [0], data[1] [1] ，…，data[127] [127] 。 如 果 页 面 大 小 为 128 
字 ， 那 么 每 行 需要 一 个 页 面 。 因 此 ， 以 上 代码 会 将 一 个 页 面 的 一 个 字 清 零 ， 再 将 下 一 个 页 面 
的 下 一 个 字 清 零 ， 等 等 。 如 果 整 个 程序 由 操作 系统 分 配 的 帧 数 少 于 128， 那 么 它 的 执行 会 产 
H 128 x 128 = 16 384 个 缺 页 错误 。 相 反 ， 假 设 将 代码 修改 为 : 


int i, Ji 
int [128] [128] data; 
for (i = 0; i < 128; i++) 


for (j = 0; j < 128; j++) 
data[i] [j] = 0; 


那么 ， 在 开始 下 个 页 面 之 前 ， 会 清除 本 页 面 的 所 有 字 ， 从 而 将 缺 页 错误 的 数量 减低 为 128。 

仔细 选择 数据 结构 和 编程 结构 可 以 增加 局 部 性 ， 进 而 降低 缺 页 错误 率 和 工作 集 的 页 面 
数 。 例 如 ,堆栈 具 有 良好 的 局 部 性 ， 因 为 访问 总 是 在 顶部 进行 的 。 相 反 ， 哈 希 表 设计 成 分 散 
引用 ， 从 而 局 部 性 差 。 当 然 ， 引 用 局 部 性 仅仅 是 数据 结构 使 用 效率 的 测度 之 一 。 其 他 重要 的 
加 权 因 素 包括 搜索 速度 、 内 存 引用 的 总 数 、 涉 及 页 面 的 总 数 。 

在 稍 后 阶段 ， 编 译 器 和 加 载 器 对 调 页 有 重要 的 影响 。 代 码 和 数据 的 分 离 和 重 入 代码 的 生 
成 意味 着 ,代码 页 面 可 以 是 只 读 的 ， 因 此 永远 不 会 被 修改 。 干 净 页 面 不 必 调 出 以 被 置换 。 加 
载 器 可 以 避免 跨越 页 面 边 界 放置 程序 ， 以 将 每 个 程序 完全 保存 在 一 个 页 面 内 。 互 相 多 次 调用 
的 程序 可 以 包装 到 同一 个 页 面 中 。 这 种 包装 是 操作 研究 的 包装 二 进 制 问题 的 一 种 变 体 : 试图 
将 可 变 大 小 的 代码 段 打包 到 固定 大 小 的 页 面 中 ， 以 便 最 小 化 页 面 间 引 用 。 这 种 方法 对 于 大 页 
面 尤 其 有 用 。 


9.9.6 “1/O 联 锁 与 页 面 锁定 


当 使 用 请 求 调 页 时 ， 有 时 需要 允许 有 些 页 面 被 锁定 (locked) 在 内 存 中 。 当 对 用 户 ( 虚 
W) 内 存 进行 IO 时 ,会 发 生 这 种 情况 。1/O 通常 采用 单独 的 IO 处 理 器 来 实现 。 例 如 ，USB 
存储 设备 的 控制 器 通常 需要 设置 所 需 传输 的 字 节 
数量 和 缓冲 区 的 内 存 地 址 (图 9-28 )。 当 传输 完 
成 后 ，CPU 被 中 断 。 

我 们 必须 确保 不 发 生 以 下 事件 序列 : 进程 
发 出 VO 请 求 ， 并 被 添加 到 这 个 IO 设备 的 队列 
上 。 同 时 ，CPU 被 交 给 了 其 他 一 些 进程 ， 这些 
进程 会 引起 缺 页 错误 。 有 的 采用 全 局 置换 算法 ， 
以 便 置换 等 待 进程 的 1/0 缓存 页 面 ， 这些 页 面 被 
调 出 。 稍 后 ， 当 IO 请 求 前 进 到 设备 队列 的 头 部 
时 ， 就 针对 指定 地 址 进行 IJO。 然 而 ， 此 帧 现在 
正 用 于 另 一 进程 的 不 同 页 面 。 

这 个 问题 有 两 个 常见 解决 方案 。 一 种 解决 方 ” 图 9-28 IO 用 到 的 帧 必须 要 在 内 存 中 的 原因 
REAM HP ARIAT VO. FAR. 数据 总 是 在 
系统 内 存 和 用 户 内 存 之 间 复 制 。UO 仅 在 系统 内 存 和 IO 设备 之 间 进 行 。 当 需要 在 磁带 上 写 
入 块 时 ， 首 先 将 块 复制 到 系统 内 存 ， 然 后 将 其 写 和 磁带。 这 种 额外 的 复制 可 能 导致 不 可 接受 
的 高 开销 。 
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另 一 种 解决 方法 是 允许 将 页 面 锁定 到 内 存 中 。 这 里 ， 每 个 帧 都 有 一 个 关联 的 锁定 位 。 如 
果 帧 被 锁定 ， 则 它 不 能 被 选择 置换 。 采 用 这 种 方法 时 ， 为 了 在 磁带 上 写 人 块 ， 我 们 将 包含 该 
块 的 页 面 锁定 到 内 存 ， 然 后 系统 可 以 照常 继续 。 锁 定 的 页 面 不 能 被 置换 。 当 LO 完成 后 ， 页 
面 被 解锁 。 

在 许多 情况 下 ， 都 可 采用 锁定 位 。 通 常 ， 操 作 系统 内 核 的 部 分 或 全 部 被 锁定 在 内 存 中 。 
许多 操作 系统 不 能 容忍 由 内 核 或 特定 内 核 模 块 (包括 执行 内 存 管理 的 模块 ) 引起 的 缺 页 错 
误 。 用 户 进 程 也 可 能 需要 将 页 面 锁 定 到 内 存 。 数 据 库 进程 可 能 想 要 管理 一 块 内 存 ， 例 如 ， 在 
磁盘 和 内 存 之 间 自 己 移动 数据 块 ， 因 为 它 具 有 如 何 使 用 数据 的 最 佳 知 识 。 内 存 页 面 的 这 种 固 
(pinning) 相当 普遍 ， 大 多 数 操作 系统 具有 系统 调用 ， 以 便 人 允许 应 用 程序 请 求 固定 逻辑 地 
址 空间 的 某 个 区 域 。 请 注意 ， 这 种 功能 可 能 会 被 滥用 ， 并 可 能 增加 内 存 管理 算法 的 压力 。 因 
此 ， 应 用 程序 经 常 需要 特殊 权限 ， 以 便 进 行 此 类 请 求 。 

锁定 位 的 男 一 种 用 途 涉及 正常 页 面 置换 。 考 虑 以 下 事件 序列 : 低 优先 级 进程 发 生 缺 
页 错误 。 调 页 系统 选择 一 个 置换 帧 ， 并 将 所 需 页 面 读 到 内 存 。 准 备 好 继续 ， 低 优先 级 进程 
进入 就 绪 队 列 并 等 待 CPU。 由 于 它 是 低 优先 级 进程 ， 可 能 有 一 段 时 间 不 被 CPU 调度 器 所 
选中 。 当 低 优先 级 进程 等 待 时 ， 高 优先 级 进程 发 生 缺 页 错误 。 寻 找 置换 时 ， 调 页 系统 发 现 
一 个 页 面 在 内 存 中 ,但 没有 引用 或 修改 一 一 这 是 低 优 先 级 进程 刚刚 调 人 的 页 面 。 这 个 页 
面 看 起 来 像 一 个 完美 的 置换 ， 它 是 干净 的 并 且 不 需要 被 写 出 ,并且 显然 很 长 时 间 没 有 使 
用 过 。 

高 优先 级 进程 是 否 能 够 置换 低 优 先 级 进程 的 页 面 是 个 策略 问题 。 上 毕竟 ， 只 是 延迟 低 优 先 
级 进程 ， 以 获得 高 优先 级 进程 的 好 处 。 然 而 ， 浪 费 了 为 低 优先 级 进程 而 调 人 页面 的 努力 。 如 
果 决 定 阻止 置换 刚 调和 的 页 面 ， 直 到 它 至 少 被 使 用 一 次 ， 则 可 以 采用 锁定 位 来 实现 这 种 机 
制 。 当 选择 页 面 进 行 置 换 时 ， 它 的 锁定 位 会 被 打开 。 它 将 保持 打开 ,直到 故障 进程 再 次 被 分 
派 为 止 。 

采用 锁定 位 可 能 是 危险 的 : 锁定 位 可 能 被 打开 ， 但 从 未 被 关闭 。 如 果 出 现 这 种 情况 〈 例 
如 ， 由 于 操作 系统 的 错误 )， 则 锁定 的 帧 将 变 得 不 可 用 。 对 于 单 用 户 操作 系统 ， 过 度 使 用 锁 
定 只 会 伤害 执行 锁定 的 用 户 。 多 用 户 系统 应 当 较 少 信任 用 户 。 例 如 ，Solaris 允许 加 锁 “ 提 
示 ”"， 但 是 如 果 空闲 帧 池 变 得 太 小 ， 或 者 单个 进程 请 求 锁定 太 多 的 内 存 页 面 ， 则 可 以 忽略 这 
些 提示 。 


9.10 ”操作 系统 例子 
本 节 讨 论 Windows 和 Solaris 如 何 实现 虚拟 内 存 。 


9.10.1 Windows 


Windows 采用 请 求 调 页 和 聚 徐 (clustering) 来 实现 虚拟 内 存 。 在 处 理 缺 页 错误 时 ， 聚 簇 
不 但 调 人 出 错 页 面 ， 而 且 调 入 故障 页 面 后面 的 多 个 页 面 。 当 进程 被 首次 创建 时 ， 它 会 被 分 配 
工作 集 的 最 小 值 和 最 大 值 。 工 作 集 最 小 值 ( working-set minimum) 是 进程 保证 在 内 存 中 的 最 
小 页 数 。 如 果 内 存 足 够 可 用 ， 则 可 以 为 进程 分 配 与 其 工作 集 最 大 值 (working-set maximum) 
相同 数量 的 页 面 。( 在 某 些 环境 下 ， 可 允许 进程 超过 工作 集 最 大 值 。) 虚拟 内 存 管理 器 维护 一 
个 空闲 页 帧 的 列表 。 这 个 列表 有 一 个 关联 的 阅 值 ， 以 用 于 指示 是 否 有 足够 的 可 用 内 存 。 如 果 
一 个 进程 的 页 数 低 于 工作 集 最 大 值 ， 而 且 出 现 缺 页 错误 ， 则 虚拟 内 存 管理 器 从 空闲 列表 上 分 
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配 帧 。 如 果 一 个 进程 的 页 数 已 达到 工作 集 最 大 值 ， 而 且 出 现 缺 页 错误 ， 则 虚拟 内 存 管 理 器 就 
采用 局 部 的 LRU 页 面 置换 策略 ， 以 选择 置换 页 面 。 

当 可 用 内 存 的 量 低 于 阔 值 时 ， 虚 拟 内 存 管理 器 采用 称 为 自动 工作 集 修剪 〈automatic 
working-set trimming) 的 策略 ， 以 便 将 其 恢复 到 阔 值 之 上 。 自 动工 作 集 修 前 通过 评估 分 配给 
进程 的 页 数 来 工作 。 如 果 一 个 进程 被 分 配 了 比 它 的 工作 集 最 小 值 更 多 的 页 面 ， 则 虚拟 内 存 
管理 器 删除 页 面 ， 直 到 该 进程 达到 工作 集 最 小 值 。 一 旦 有 足够 多 的 可 用 内 存 ， 则 处 于 工作 
集 最 小 值 的 进程 可 以 从 空闲 帧 列表 上 分 配 帧 。Windows 对 用 户 模式 和 系统 进程 执行 工作 集 
修剪 。 

第 17 章 将 更 详细 地 讨论 Windows 操作 系统 的 虚拟 内 存 。 


9.10.2 Solaris 


在 Solaris 中 ， 当 线程 发 生 缺 页 错误 时 ， 内 核 会 从 维护 的 空闲 页 列表 上 为 缺 页 错误 线程 
分 配 一 个 页 。 因 此 ， 内 核 必须 保留 足够 的 可 用 内 存 空间 。 这 个 空闲 页 列表 有 一 个 关联 的 参数 
lotsfree， 用 于 表示 开始 调 页 的 阔 值 。 参 数 lotsfree 通常 设 为 物理 内 存 大 小 的 1/64。 每 
秒 4 次 ， 内 核 检 查 可 用 内 存量 是 否 小 于 lotsfree。 如 果 可 用 页 面 的 数量 低 于 lotsfree， 则 
启动 称 为 换 页 (pageout) 的 进程 。 进 程 pageout 采用 类 似 于 9.4.5.2 节 所 述 的 第 二 次 机 会 算 
法 ， 但 是 它 在 扫描 页 面 时 使 用 两 个 〈 而 不 是 一 个 ) 指针 。 

调 页 进程 工作 方法 如 下 : 时 钟 前 指针 扫描 内 存 的 所 有 页 面 ， 以 便 清除 引用 位 。 随 后 ， 时 
钟 后 指针 检查 内 存 页 面 的 引用 位 ， 将 那些 引用 位 仍然 为 0 的 页 面 添加 到 空闲 列表 ， 并 且 将 已 
修改 的 页 面 保存 到 磁盘 。Solaris 有 一 个 cache 列表 ， 用 于 维护 已 经 “释放 ”但 尚未 被 覆盖 的 
页 面 。 空 闲 列 表 包 含 具 有 无 效 内 容 的 帧 。 如 果 页 面 在 被 移动 到 空闲 列表 之 前 被 访问 ， 则 它 可 
以 从 缓存 列表 中 被 收回 。 

调 页 算法 采用 多 个 参数 来 控制 扫描 页 面 的 速率 ( 称 为 扫描 速度 ( scanrate))。 扫 描 速 度 
以 每 秒 页 数 表 示 ， 它 的 范围 从 慢 扫 描 (slowscan) 到 快速 扫描 (fastscan)。 当 可 用 内 存 低 
F lotsfree 时 ,扫描 从 每 秒 slowscan 页 面 
的 速度 开始 ， 增 加 到 每 秒 fastscan 页 面 ， 具 
体 取决 于 可 用 的 内 存量 。slowscan 的 默认 值 
为 每 秒 100 个 页 面 。fastscan 通常 设 为 每 秒 
一 半 的 总 物理 页 数 ， 它 的 最 大 值 为 每 秒 8192 
个 页 面 。 上 面 描述 如 图 9-29 所 示 (fastscan 
设 为 最 大 值 )。 100 

时 钟 指针 之 间 的 距离 (以 页 数 表示 ) 由 O 
系统 参数 handspread 确定 。 前 指针 清除 位 minfree desfree lotsfree 
与 后 指针 检查 位 之 间 的 时 间 取 决 于 scanrate 可 用 内 存 数 量 
和 handspread。 如 果 scanrate 为 每 秒 100 图 9-29 Solaris 页 面 扫描 器 
页 ，handspread 为 1024 页 ， 则 在 前 指针 清 
除 位 和 后 指针 检查 位 之 前 有 10 秒 。 然 而 ， 由 于 对 内 存 系统 的 需求 ， 每 秒 数 千 页 的 scanrate 
并 不 罕见 。 这 意味 着 ， 清 除 位 和 调查 位 之 间 的 时 间 通 常 为 几 秒 。 

如 上 所 述 ， 进 程 pageout 每 秒 4 次 检查 内 存 。 然 而 ， 如 果 可 用 内 存 低 于 desfree 的 值 


8192 
fastscan 


扫描 速度 
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(图 9-29), M pageout 会 每 秒 运行 100 次 ， 以 保证 至 少 有 desfree 个 可 用 空闲 页 面 。 如 果 进 
fi pageout 无 法 在 平均 30 秒 内 保持 空闲 内 存量 达到 duesfree， 则 内 核 开 始 交 换 进程 ， 从 而 
释放 所 有 分 配给 已 交换 进程 的 页 面 。 通 常 ， 内 核 寻 找 长 时 间 空 闲 的 进程 。 最 后 ， 如 果 系 统 不 
能 维护 空闲 内 存 的 数量 至 少 为 minfree， 则 每 次 请 求 新 页 面 时 会 执行 进程 pageout。 

最 近 发 布 的 Solaris 内 核 改 进 了 调 页 算法 。 改 进 之 一 是 ， 识 别 共享 库 的 页 面 。 正 被 多 个 
进程 共享 的 库 的 页 面 ， 即 使 有 资格 被 扫描 器 声称 ， 在 页 面 扫描 过 程 中 也 会 被 跳 过 。 另 一 个 改 
进 是 区 别 分 配给 进程 的 页 面 和 分 配给 普通 文件 的 页 面 。 这 称 为 优先 权 调 页 ( priority paging), 
将 在 11.6.2 节 中 讨论 。 


9.11 小 结 


我 们 期 望 能 够 执行 逻辑 地 址 空间 大 于 可 用 物理 地 址 空间 的 进程 。 虚 拟 内 存 是 一 种 技术 ， 
能 够 将 较 大 的 逻辑 地 址 空间 映射 到 较 小 的 物理 内 存 。 虚 拟 内 存 允 许 运行 极 大 的 进程 ， 提 高 多 
道 程度 ， 提 高 CPU 利用 率 。 再 者 ， 它 使 程序 员 不 必 担 心 内 存 可 用 性 。 此 外 ， 虚 拟 内 存 允 许 
多 个 进程 共享 系统 库 和 内 存 。 通 过 虚拟 内 存 ， 可 以 采用 写 入 时 复制 进行 高 效 的 进程 创建 ， 这 
里 的 父 进 程 和 子 进程 共享 实际 的 内 存 页 面 。 

虚拟 内 存 的 实现 通常 采用 请 求 调 页 。 纯 请 求 调 页 只 有 在 页 面 被 引用 时 才 会 调 人 。 首 次 引 
用 会 导致 操作 系统 发 生 缺 页 错误 。 操 作 系统 内 核查 询 内 部 表 ， 以 便 确 定 这 个 页 面 在 后 备 存储 
上 的 位 置 。 然 后 ， 它 找到 空闲 帧 ， 并 从 后 备 存储 中 读 取 页 面 ; 更 新 页 表 以 反映 此 更 改 ， 并 重 
新 启动 导致 缺 页 错误 的 指令 。 这 种 方法 允许 进程 运行 ， 即 使 它 的 整个 内 存 映像 不 能 同时 在 内 
存 中 。 只 要 缺 页 错误 率 足 够 低 ， 那 么 性 能 就 可 接受 。 

通过 请 求 调 页 可 以 减少 分 配给 进程 的 帧 数 。 这 种 安排 可 以 增加 多 道 程度 (允许 同时 执行 
BA WHER), IFA (至 少 从 理论 上 说 ) 增加 系统 CPU 的 利用 率 。 即 使 进程 内 存 需 要 超过 了 
总 的 物理 内 存 ， 也 允许 执行 。 这 些 进程 运行 在 虚拟 内 存 中 。 

如 果 总 的 内 存 需 求 超过 物理 内 存 的 容量 ， 则 可 能 需要 置换 内 存 的 页 面 ， 以 生成 新 页 面 的 
空闲 帧 。 可 以 使 用 多 种 页 面 置换 算法 。FIFO 页 面 置换 算法 容易 编程 ， 但 是 会 遭受 Belady F 
常 。 最 优 页 面 置换 需要 将 来 的 知识 。LRU 页 面 置换 是 最 优 页 面 置换 的 近似 ， 但 是 仍 难以 实 
现 。 大 多 数 页 面 置 换算 法 ， 例 如 第 二 次 机 会 算法 ， 是 LRU 置换 的 近似 。 

除了 页 面 置换 算法 之 外 ， 还 需要 帧 分 配 策略 。 分 配 可 以 是 固定 的 ， 此 时 建议 采用 局 部 
页 面 置换 算法 ; 也 可 以 是 动态 的 ， 此 时 建议 采用 全 局 置换 。 工 作 集 模型 假定 进程 执行 的 局 部 
性 。 工 作 集 是 当前 局 部 的 所 有 页 面 的 集合 。 因 此 ， 应 当 为 每 个 进程 的 当前 工作 集 分 配 足够 多 
的 帧 。 如 果 一 个 进程 没有 足够 的 内 存 用 于 工作 集 ， 则 会 发 生 抖动 。 为 进程 提供 足够 的 内 存 以 
避免 抖动 ， 可 能 需要 进程 交换 和 调度 。 

大 多 数 操作 系统 提供 内 存 映射 文件 的 功能 ， 如 允许 文件 IO 作为 常规 内 存 访问 。Win32 
API 通过 文件 的 内 存 映 射 来 实现 共享 内 存 。 

内 核 进 程 通常 需要 采用 物理 连续 页 面 来 分 配 内 存 。 伙 伴 系统 允许 内 核 进程 按 2 的 寡 大 小 
来 分 配 ， 这 通常 会 导致 碎片 。slab 分 配器 允许 从 由 slab 组 成 的 cache 上 来 分 配 ， 每 个 slab 由 
若干 物理 连续 的 页 面 组 成 。 采 用 slab 分 配 ， 不 会 因 碎 片 问题 而 产生 内 存 浪费 ， 并 且 内 存 请 
求 可 以 快速 满足 。 

除了 要 求解 决 页 面 置换 和 帧 分 配 的 主要 问题 之 外 ， 请 求 调 页 的 正确 设计 还 需要 考虑 预先 
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读 取 、 页 面 大 小 、TLB 范围 、 倒 置 页 表 、 程 序 结构 、LIO 联 锁 和 页 面 锁定 等 其 他 问题 。 
习题 


9.1 


9.2 


9:3 


9.4 


2.5 


9.6 


9:7 


9.8 


假设 程序 刚刚 引用 了 虚拟 内 存 的 一 个 地 址 。 描 述 可 能 发 生 以 下 每 个 情况 的 情景 。( 如 果 不 可 能 发 
生 ， 解 释 为 什么 。) 

e TLB 未 命中 ， 没 有 缺 页 错误 。 

© TLB RMF, AGRI HR. 

© TLB 命中 ， 没 有 人 缺 页 错误 。 

e TLB MF, AiR IR. 

如 图 9-30 所 示 ， 简 化 的 线程 状态 为 就 绪 (ready), i£ 47 

(running) 或 阻塞 (blocked)， 它 们 分 别 表示 线程 已 准备 好 并 等 

待 调度 、 正 在 处 理 器 上 运行 或 被 阻塞 (例如 ， 等 待 UO)。 假 设 

线程 处 于 运行 状态 ， 请 回答 以 下 问题 ， 并 解释 你 的 答案 : cae Rss 

a. 如 果 线 程 引起 缺 页 错误 ， 它 是 否 会 改变 状态 ? 如 果 是 , 会 ”图 9-30 习题 9.2 的 线程 状态 图 
改变 为 什么 状态 ? 

b. 如 果 在 页 表 解 析 时 没有 命中 TLB ， 线 程 是 否 会 改变 状态 ?如 果 是 ， 会 改变 为 什么 状态 ? 

c. 如 果 地 址 引用 被 页 表 解 析 时 ， 线 程 是 否 会 改变 状态 ? 如 果 是 ， 会 改变 为 什么 状态 ? 

考虑 采用 纯 请 求 调 页 的 系统 。 

a, 当 进 程 首次 开始 执行 时 ， 如 何 描 述 它 的 缺 页 错误 率 ? 

b. 一 旦 进程 的 工作 集 被 加 载 到 内 存 中 ， 如 何 描 述 它 的 缺 页 错误 率 ? 

c. 假设 进程 改变 了 局 部 性 ， 而 且 新 的 工作 集 太 大 而 不 能 存储 在 可 用 的 空闲 内 存 中 。 提 供 一 些 选 
项 ， 以 供 系统 设计 者 处 理 这 种 情况 。 

什么 是 写 时 复制 功能 ? 在 什么 情况 下 它 的 使 用 是 有 效 的 ? 实现 这 种 功能 需要 什么 硬件 支持 ? 

某 台 计算 机 为 用 户 提供 了 2” 字 节 的 虚拟 内 存 空间 。 它 有 2 字 节 的 物理 内 存 。 虚 拟 内 存 通 过 请 求 

调 页 来 实现 ， 每 个 页 面 为 4096 字 节 。 假 设 用 户 进 程 生成 了 虚拟 地 址 11123456。 请 解释 如 何 建立 

对 应 的 物理 位 置 。 请 区 分 软件 和 硬件 的 操作 。 

假设 采用 请 求 调 页 的 内 存 。 页 表 保 存在 寄存 器 中 。 如 果 有 可 用 空 帧 或 者 置换 的 页 面 未 被 修改 ， 则 
缺 页 错误 的 处 理 需要 8ms; 如 果 置 换 的 页 面 已 被 修改 ， 则 需要 20ms。 内 存 访问 时 间 为 100ns。 
假设 需要 置换 的 页 面 在 70% 的 时 间 内 会 被 修改 。 对 于 有 效 访 问 时 间 不 超过 200ns， 最 大 可 接受 的 
缺 页 错误 率 是 多 少 ? 

当 发 生 缺 页 错误 时 ， 请 求 页 面 的 进程 必须 阻塞 ， 以 便 等 待 页 面 从 磁盘 调和 人 物理 内 存 。 假 设 有 一 个 

进程 ， 它 有 5 个 用 户 级 线程 ， 并 且 用 户 线程 到 内 核 线程 的 映射 是 一 对 一 的 。 如 果 某 个 用 户 线程 在 

访问 堆栈 时 引起 缺 页 错误 ， 那 么 属于 同一 进程 的 其 他 用 户 线程 是 否 也 受到 这 个 缺 页 错误 的 影响 ? 

也 就 是 说 ， 它 们 是 否 也 应 等 待 以 将 故障 页 面 调 入 内 存 ? 请 说 明之 。 

考虑 下 面 的 页 面 引用 串 : 


F011 

假设 采用 3 个 帧 的 请 求 调 页 ， 以 下 置换 算法 会 发 生 多 少 次 缺 页 错误 ? 
e LRU 置换 

e FIFO 置换 
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e 最 优 置 换 

9.9 ”图 9-31 所 示 的 页 表 用 于 某 个 系统 ， 它 具有 16 位 的 虚拟 和 物理 地 址 ， 每 个 页 面 为 4096 字 节 。 当 [4 
页 面 被 引用 时 ， 它 的 引用 位 会 被 设置 为 1。 有 一 个 线程 会 周期 性 地 将 引用 位 的 所 有 值 清 零 。 页 
帧 这 一 栏 的 “一 ”表示 页 面 不 在 内 存 中 。 页 面 置换 算法 是 局 部 LRU， 所 有 数值 是 按 十 进 制 提 
供 的 。 





图 9-31 习题 9.9 的 页 表 


a 将 以 下 虚拟 地 址 (十 六 进 制 的 ) 转换 为 对 应 的 物理 地 址 。 你 可 以 提供 十 六 进 制 或 十 进 制 的 答案 。 
你 还 要 在 页 表 中 为 适当 的 条 目 设置 引用 位 。 

OxE12C 

Ox3A9D 

OxA9D9 

Ox7001 

OxACA1 
b. 使 用 上 述 地 址 作为 指导 ， 提 供 导致 缺 页 错误 的 逻辑 地 址 (十 六 进 制 ) 的 示例 。 
c. LRU 页 面 置换 算法 在 解决 缺 页 错误 时 会 从 哪 一 组 页 面 帧 中 选择 ? 

9.10 假设 你 正在 监视 时 钟 算法 的 指针 移动 速率 。( 指 针 指 示 要 被 置换 的 候选 页 面 。) 根据 以 下 行为 ， 可 
得 到 什么 结论 ? 
a. 指针 移动 快 。 
b. 指针 移动 慢 。 

9.11 讨论 最 不 经 常 使 用 (LFU) 页 面 置换 算法 比 最 近 最 少 使 用 (LRU) 页 面 置换 算法 产生 更 少 缺 页 错 “ [443] 
误 的 情况 。 并 且 讨论 相反 的 情况 。 
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9.12 


9.13 


[444] 9.15 
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讨论 最 经 常 使 用 (MFU) 页 面 置 换算 法 比 最 近 最 少 使 用 (LRU) 页 面 置换 算法 产生 更 少 缺 页 错误 

的 情况 。 并 且 讨 论 相 反 的 情况 。 

VAX/VMS 系统 对 常 驻 页 面 和 最 近 使 用 页 面 的 空闲 帧 池 采 用 FIFO 置换 算法 。 假 设 管理 空闲 帧 池 

采用 LRU 置换 策略 。 请 回答 下 列 问题 : 

a. 如 果 发 生 缺 页 错误 并 且 所 需 页 面 不 在 空闲 帧 池 中 ， 那 么 如 何 为 新 请 求 的 页 面 分 配 可 用 空间 ? 

b 如 果 发 生 缺 页 错误 并 且 所 需 页面 在 空闲 帧 池 中 ， 那 么 如 何 管理 驻 留 页 面 和 空闲 帧 地， 以 便 为 
请 求 的 页 面 腾 出 空间 ? 

c. 如 果 常 驻 页 面 的 数量 设置 为 1， 则 系统 退化 成 什么 ? 

d. 如 果 空 闲 帧 池 的 页 面 数量 为 0， 则 系统 退化 成 什么 ? 

假设 有 一 个 请 求 调 页 系统 ， 以 下 为 其 时 测 利用 率 : 


CPU 利用 率 20% 
分 页 磁盘 97.7% 
其 他 LO 设备 5% 


对 于 以 下 情况 ， 请 指出 它 能 否 (或 有 可 能 ) 提高 CPU 利用 率 ， 并 解释 你 的 答案 。 
a. 安装 更 快 的 CPU. 
b. 安装 更 大 的 分 页 磁盘 。 
c. 提高 多 道 程度 。 
d. 降低 多 道 程度 。 
e. 安装 更 多 内 存 。 
f. 安装 更 快 的 硬盘 或 具有 多 个 硬盘 的 多 个 控制 器 。 
g. 为 页 面 获取 算法 添加 预先 调 页 。 
h. 增加 页 面 大 小 。 
假设 有 一 台 计 算 机 提供 指令 ， 以 便 采用 一 级 间接 寻 址 方案 来 访问 内 存 位 置 。 如 果 程 序 的 所 有 页 
面 都 不 在 内 存 中 ， 而 且 它 的 第 一 条 指令 是 间接 内 存 加 载 操 作 ， 则 会 引起 什么 样 的 缺 页 错误 序 
列 ? 如 果 操 作 系统 采用 按 进程 来 分 配 内 存 ， 而 且 该 进程 只 分 配 了 两 个 帧 ， 则 会 发 生 什么 ? 
假设 请 求 调 页 系统 的 置换 策略 定期 检查 每 个 页 面 ， 而 且 如 果 从 上 次 检查 后 没有 使 用 ， 则 会 丢弃 
这 个 页 面 。 采 用 这 个 策略 而 不 是 LRU 或 第 二 次 机 会 置换 ， 会 得 到 什么 ”又 会 失去 什么 ? 
页 面 置换 算法 应 该 尽 可 能 减少 缺 页 错误 的 数量 。 这 种 最 小 化 的 实现 可 以 将 大 量 使 用 的 页 面 
均匀 分 布 在 所 有 内 存 中 ， 而 不 是 让 它们 竞争 少量 的 页 面 帧 。 可 以 为 每 个 页 帧 关联 一 个 计数 
器 ， 以 记录 与 帧 关联 的 页 面 数量 。 这 样 ， 在 置换 一 个 页 面 时 ， 可 以 查找 最 少 页 面 数 的 帧 以 
便 换 。 
a. 采用 这 个 基本 思想 定义 一 个 页 面 置换 算法 。 特 别 注意 以 下 问题 : 
i. 计数 器 初 值 是 多 少 ? 
ii. 什么 时 候 计 数 器 增加 ? 
iii. 什么 时 候 计 数 器 减少 ? 
iv. 如 何 选择 要 置换 的 页 面 ? 
b. 对 于 以 下 引用 串 ， 假 设 具 有 4 个 页 帧 ， 你 的 算法 会 发 生 多 少 次 缺 页 错误 ? 
1,2, 3, 4, 5,3, 4,1, 6, 7, 8, 7,8, 9,7, 8,9, 5, 4,5, 4,2 


c 对 于 以 上 引用 串 ， 假 设 具有 4 个 页 帧 ， 最 优 页 面 置换 策略 的 最 小 缺 页 错误 数 为 多 少 ? 


9: 


— 
Co 
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假设 有 一 个 请 求 调 页 系统 具有 一 个 平均 访问 和 传输 时 间 为 20ms 的 调 页 磁盘 。 地 址 转换 是 通过 内 
存 中 的 页 表 来 进行 的 ， 每 次 内 存 访问 时 间 为 Ims。 因 此 ， 通 过 页 表 的 每 次 内 存 引用 需要 两 次 访 
问 。 为 了 改善 这 一 时 间 ， 添 加 了 一 个 关联 内 存 ; 如 果 页 表 条 目 处 在 关联 内 存 中 ， 则 可 以 减少 内 
存 引 用 的 访问 时 间 。 假 设 80% 的 访问 在 关联 内 存 中 进行 ， 剩 余 的 10% (或 总 数 的 2%) 会 导致 缺 
页 错误 。 有 效 的 内 存 访 问 时 间 是 多 少 ? 

抖动 的 原因 是 什么 ”系统 如 何 检测 拌 动 ? 一 旦 系统 检测 到 抖动 ， 它 可 以 做 什么 来 消除 这 个 问题 ? 
一 个 进程 是 否 可 能 有 两 个 工作 集 ， 一 个 用 于 数据 ， 另 一 个 用 于 代码 ? 请 解释 为 什么 。 

考虑 参数 A ， 它 用 于 定义 工作 集 模型 的 工作 集 窗口 。 当 A 设 为 较 小 值 时 ， 对 缺 页 错误 频率 和 系 
统 内 正在 执行 的 活动 ( 非 暂 停 ) 进程 的 数量 有 什么 影响 ? 当 A 设 为 较 大 值 时 又 如 何 ? 

在 1024KB 段 中 ， 采 用 伙伴 系统 分 配 内存 。 利 用 图 9-26 作为 指南 ， 绘 制 一 棵 树 ， 说 明 如 何 分 配 
以 下 内 存 请 求 : 

e 请 求 6KB 

e 请 求 250 字 节 

© 请 求 900 字 节 

e 请 求 1500 字 节 

e 请 求 7KB 

接 下 来 ， 根 据 以 下 内 存 释 放 来 修改 生成 树 。 尽 可 能 执行 合并 : 

e 释放 250 字 节 

o 释放 900 字 节 

o 释放 1500 字 节 

假设 系统 支持 用 户 级 和 内 核 级 的 线程 。 该 系统 的 映射 是 一 对 一 的 (每 个 用 户 线程 都 有 一 个 相应 
的 内 核 线程 )。 

a. 多 线程 进程 是 否 有 一 个 工作 集 以 用 于 整个 进程 ? 

b. 多 线程 进程 是 否 有 多 个 工作 集 ， 分 别 用 于 每 个 线程 ”请 解释 。 

slab 分 配 算法 为 每 个 不 同类 型 的 对 象 使 用 单独 的 cache。 假 设 每 个 对 象 类 型 都 有 一 个 cache， 解 
释 为 什么 这 种 方案 不 适宜 于 多 个 CPU。 人 解决 这 个 可 扩展 性 问题 需要 做 什么 ? 

假设 有 一 个 系统 ， 可 为 进程 分 配 不 同 大 小 的 页 面 。 这 样 的 分 页 系统 有 什么 优点 ? 如 何 修改 虚拟 
内 存 系统 以 便 提供 这 种 功能 ? 


编程 题 


9.26 


9.27 


编写 一 个 程序 ， 实 现 本 章 所 述 的 FIFO、LRU 和 最 优 页 面 置 换算 法 。 首 先 ， 生 成 一 个 随机 的 页 
面 引用 串 ， 其 中 页 码 的 范围 为 0 一 9。 将 这 个 随机 页 面 引 用 串 应 用 到 每 个 算法 ， 并 记录 每 个 算 
法 引起 的 缺 页 错误 的 数量 。 实 现 置换 算法 ， 以 便 页 面 帧 的 数量 可 以 从 1 ~ 7。 假 设 采 用 请 求 
分 页 。 

重复 习题 3.22， 这 次 使 用 Windows 共享 内 存 。 特 别 地 ,采用 生产 者 -消费 者 策略 ， 利 用 如 
9.7.2 节 所 述 的 Windows API， 设 计 两 个 程序 以 通过 共享 内 存 进 行 通信 。 生 产 者 会 生成 由 Collatz 
猜想 指定 的 数值 ， 并 将 它们 写 人 共享 内 存 对 象 。 然 后 ， 消 费 者 将 从 共享 内 存 中 读 取 并 输出 数据 
序列 。 

在 这 种 情况 下 ， 生 产 者 将 在 命令 行 上 传递 一 个 整 型 参数 ， 以 便 指 定 要 生成 多 少 个 数字 (例如 ， 
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在 命令 行 上 提供 5 表示 生产 者 进程 将 生成 前 5 个 数字 )。 


编程 项 目 
设计 虚拟 内 存 管理 器 


该 项 目 包括 编写 一 个 程序 ， 为 大 小 为 2*= 65 536 字 节 的 虚拟 地 址 空间 将 逻辑 地 址 转换 到 物理 地 
址 。 这 个 程序 将 从 包含 逻辑 地 址 的 文件 中 读 取 ， 通 过 TLB 和 页 表 将 每 个 逻辑 地 址 转换 为 对 应 的 物理 地 
址 ， 并 且 输 出 在 转换 的 物理 地 址 处 存储 的 字 节 值 。 本 项 目的 目标 是 模拟 涉及 逻辑 地 址 转换 为 物理 地 址 
的 步 又 。 
规格 

你 的 程序 将 读 取 一 个 文件 ， 它 包含 表示 逻辑 地 址 的 
多 个 32 位 的 整数 。 然 而 ， 你 只 需 关心 16 位 的 地 址 ， 因 
此 应 屏蔽 每 个 逻辑 地 址 的 最 右边 16 位。 这 16 位 被 分 成 8 
位 的 页 码 和 8 位 的 页 偏 移 。 因 此 ， 地 址 的 结构 如 图 9-32 
所 示 。 

其 他 要 求 包括 ; 

e RRA 2: 个 条 目 

© 页 面 大 小 为 2 字 节 

e TLB 有 16 个 条 目 

© 帧 大 小 为 2* 字 节 

© 帧 数 为 256 

© 物理 内 存 为 65 536 字 节 (256 帧 x 256 字 节 / 帧 ) 

此 外 ， 你 的 程序 只 需要 关注 读 取 逻 辑 地 址 ， 并 将 它们 转换 为 相应 的 物理 地 址 。 你 不 需要 支持 写 出 
逻辑 地 址 空间 。 

地 址 转换 

你 的 程序 采用 8.5 节 所 述 的 TLB 和 页 表 ， 以 将 逻 和 辑 地 址 转换 为 物理 地 址 。 首 先 ， 从 逮 辑 地 址 提取 
页 码 ， 并 且 查 阅 TLB。 在 TLB 命中 的 情况 下 ， 从 TLB 中 获得 帧 码 。 在 TLB 未 命中 的 情况 下 ， 应 查阅 
页 表 。 在 后 一 种 情况 下 ， 从 页 表 获 得 帧 码 或 发 生 缺 页 错误 。 地 址 转换 过 程 的 直观 表示 如 图 9-33 所 示 。 
处 理 缺 页 错误 

你 的 程序 应 实现 9.2 节 所 述 的 请 求 调 页 。 后 备 存 储 由 文件 BACKING_STORE.bin 表示 ， 这 是 一 个 大 小 
为 65 536 字 节 的 二 进 制 文件 。 当 发 生 缺 页 错误 时 ， 你 将 从 文件 BACKING_STORE 中 读 取 一 个 256 字 节 的 页 
面 ， 并 将 其 存储 在 物理 内 存 的 可 用 页 帧 中 。 例 如 ， 如 果 页 码 为 15 的 逻辑 地 址 导致 缺 页 错误 ， 则 程序 将 从 
BACKING_STORE 中 读 取 第 15 页 (请 记 住 页 面 从 0 开始， 大 小 为 256 字 节 )， 并 且 将 其 存储 在 物理 内 存 的 页 
帧 中 。 一 旦 该 帧 被 存储 (并 且 页 表 和 TLB 也 被 更 新 )， 对 第 15 页 的 后 续 访 问 将 由 TLB 或 页 表 来 解决 。 

你 需要 将 BACKING_STORE. bin 作为 随机 访问 文件 来 处 理 ， 以 便 可 以 随机 寻 到 文件 的 特定 位 置 来 
读 取 。 建 议 采 用 执行 O 的 标准 C 库 函 数 ， 包括 fopen() 、fread() fseek() 以 及 fclose()。 

物理 内 存 的 大 小 与 虚拟 地 址 空间 的 大 小 相同 ( 65 536 字 节 )， 因 此 你 不 需要 关心 缺 页 错误 期 间 的 页 
面 置换 。 以 后 ， 我 们 描述 这 个 项 目的 修改 ， 以 使 用 较 少 的 物理 内 存 ， 到 时 将 需要 页 面 置 换 策略 。 
测试 文件 

我 们 提供 文件 addresses .txt， 它 包含 整数 值 ， 以 表示 0 ~ 65 535 (虚拟 地 址 空间 的 大 小 ) Age 





图 9-32 ”地 址 结构 
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辑 地 址 。 你 的 程序 将 打开 该 文件 ， 读 取 每 个 逻辑 地 址 ， 然 后 翻译 为 对 应 的 物理 地 址 ， 并 且 输 出 在 物理 
地 址 处 带 符号 字 节 的 值 。 





图 9-33 地址 转换 过 程 的 表示 


如 何 开始 

首先 ， 编 写 一 个 简单 的 程序 ， 从 以 下 整数 中 提取 页 码 和 偏 移 量 (基于 图 9-32 ): 

1,256, 32768, 32769, 128, 65534, 33153 
也 许 最 简单 的 方法 是 采用 位 掩 码 和 位 移动 的 运算 符 。 一 旦 可 以 从 整数 正确 获得 页 码 和 偏 黎 ， 就 可 以 
开始 。 

我 们 建议 你 最 初 绕 过 TLB 并 仅 使 用 页 表 。 一 旦 页 表 正 常 工作 ， 你 就 可 以 集成 TLB。 记 住 ， 在 没 
有 TLB 的 情况 下 ， 地 址 转换 可 以 工作 ; 有 了 TLB， 只 会 更 快 。 当 准备 好 实现 TLB 时 ， 请 记 住 它 只 
有 16 个 条 目 ， 因 此 在 更 新 完 TLB 后 ， 你 将 需要 采用 置换 策略 。 你 可 以 采用 FIFO 或 LRU 策略 来 更 新 
TLB. 
如 何 运行 程序 

你 的 程序 应 按 如 下 运行 ; 


./a.out addresses.txt 


你 的 程序 将 读 和 文件 addresses.txt， 其 中 包含 1000 个 逻辑 地 址 ， 范 围 为 0 ~ 65 535。 你 的 程序 将 
每 个 逻辑 地 址 转换 为 物理 地 址 ， 并 确定 存储 在 正确 物理 地 址 的 带 符号 字 节 的 内 容 。( 回 想 一 下 在 C 语言 
H, char 数据 类 型 占用 了 一 个 字 节 的 存储 空间 ， 因 此 我 们 建议 使 用 char 值 。) 

你 的 程序 输出 以 下 值 ; 

eo 要 翻译 的 逻辑 地 址 (从 addresses.txt 中 读 取 的 整数 值 )。 

e 相应 的 物理 地 址 (你 的 程序 转换 逻辑 地 址 而 得 到 的 )。 

o 存储 在 转换 的 物理 地 址 上 的 带 符号 字 节 值 。 

我 们 还 提供 文件 correct .txt， 它 包含 文件 addresses.txt 的 正确 输出 值 。 你 应 该 使 用 此 文件 ， 
来 确定 你 的 程序 是 否 正确 地 将 逻辑 地 址 转换 为 物理 地 址 。 
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统计 

完成 后 ， 你 的 程序 应 报告 以 下 统计 信息 : 

o ARIRE: 导致 缺 页 错误 的 地 址 引用 的 百分比 。 

e TLB 命中 率 : Æ TLB 中 解析 的 地 址 引用 的 百分比 。 

由 于 addresses.txt 中 的 逻辑 地 址 是 随机 生成 的 ， 并 且 没 有 反映 任何 内 存 访问 的 局 部 性 ， 因 此 不 能 
期 望 具 有 高 TLB 命中 率 。 
修改 

该 项 目 假设 物理 内 存 与 虚拟 地 址 空间 大 小 相同 。 在 实际 中 ， 物 理 内 存 通常 比 虚拟 地 址 空间 小 得 
多 。 建 议 的 修改 是 使 用 较 小 的 物理 地 址 空间 。 我 们 建议 采用 128 个 页 帧 而 不 是 256 个 。 这 种 更 改 需 要 
修改 程序 以 便 跟 踪 空 闲 页 帧 ， 并 且 采 用 FIFO 或 LRU (9.4 节 ) 来 实现 页 面 置换 策略 。 


推荐 读物 

请 求 调 页 首先 用 于 Atlas 系统 ， 它 于 1960 年 左右 实现 在 曼彻斯特 大 学 的 MUSE 计算 机 上 (Kilburn 
等 (1961 ) ) 。 另 一 个 早期 的 请 求 调 页 系统 是 MULTICS ， 实 现在 GE 645 系统 上 (Organick ( 1972 ) ) 。 
虚拟 内 存在 1979 年 被 添加 到 UNIX (Babaoglu fil Joy (1981 ))。 

Belady 等 (1969 ) 最 早 观 察 到 FIFO 置换 策略 会 产生 现在 所 称 的 Belady 异常 现象 。Mattson 等 
(1970) 说 明了 堆栈 算法 不 会 产生 Belady 异常 。 

最 优 置换 算法 由 Belady ( 1966 ) 提出 ， 并 由 Mattson 等 ( 1970 ) 证 明 为 最 优 。Belady 的 最 优 算 法 
用 于 固定 分 配 。Prieve 和 Fabry (1976) 提出 了 一 种 最 优 算法 ， 可 用 于 分 配 可 变 大 小 的 情况 。 

Carr 和 Hennessy ( 1981 ) 论述 了 改进 的 时 钟 算法 。 

Denning ( 1968 ) 开发 了 工作 集 模 型 ，Denning (1980) 给 出 了 有 关 工 作 集 的 论述 。 

Wulf (1969 ) 设计 了 监测 缺 页 错误 率 的 方案 ， 并 将 这 种 技术 应 用 到 Burroughs B5500 计算 机 系统 。 

Knowlton ( 1965 )、Peterson 和 Norman (1977) VA & Purdom, Jr. 和 Stigler (1970) 都 研究 了 
buddy 系统 的 内 存 分 配器 。Bonwick (1994) 讨论 了 slab 分 配器 ，Bonwick 和 Adams (2001 ) 把 这 一 
讨论 扩展 到 了 多 处 理 器 。Stephenson ( 1983 ) Bays (1977) 和 Brent ( 1989 ) 研究 了 其 他 内 存 分 配 算 法 。 
Wilson 等 (1995 ) 综述 了 内 存 分 配 策略 。 

Solomon 和 Russinovich ( 2000 ) 以 及 Russinovich 和 Solomon (2005 ) 描述 了 Windows 如 何 实现 虚 
拟 内 存 。McDougall 和 Mauro ( 2007 ) 论述 了 Solaris 的 虚拟 内 存 。Love (2010) 以 及 McKusick 和 
Neville Neil (2005 ) 分 别 描述 了 Linux 和 Free BSD 的 虚拟 内 存 技术 。Ganapathy 和 Schimmel ( 1998 ) 
以 及 Navarro 等 ( 2002 ) 讨论 了 操作 系统 对 多 个 页 面 大 小 的 支持 。 


参考 文献 


[Babaoglu and Joy (1981)] O. Babaoglu and W. Joy, “Converting a Swap-Based 
System to Do Paging in an Architecture Lacking Page-Reference Bits”, Pro- 
ceedings of the ACM Symposium on Operating Systems Principles (1981), pages 
78-86. 


[Bays (1977)] C. Bays, “A Comparison of Next-Fit, First-Fit and Best-Fit”, Com- 
munications of the ACM, Volume 20, Number 3 (1977), pages 191-192. 


[Belady (1966)] L. A. Belady, “A Study of Replacement Algorithms for a Virtual- 
Storage Computer”, IBM Systems Journal, Volume 5, Number 2 (1966), pages 
78-101. 


[Belady et al. (1969)] L. A. Belady, R. A. Nelson, and G. S. Shedler, “An Anomaly 


PIF BMAF 


in Space-Time Characteristics of Certain Programs Running in a Paging 
Machine”, Communications of the ACM, Volume 12, Number 6 (1969), pages 
349-353. 


[Bonwick (1994)] J. Bonwick, “The Slab Allocator: An Object-Caching Kernel 
Memory Allocator”, USENIX Summer (1994), pages 87-98. 


[Bonwick and Adams (2001)] J. Bonwick and J. Adams, “Magazines and Vmem: 
Extending the Slab Allocator to Many CPUs and Arbitrary Resources”, Proceed- 
ings of the 2001 USENIX Annual Technical Conference (2001). 


[Brent (1989)] R. Brent, “Efficient Implementation of the First-Fit Strategy for 
Dynamic Storage Allocation”, ACM Transactions on Programming Languages and 
Systems, Volume 11, Number 3 (1989), pages 388—403. 


[Carr and Hennessy (1981)] W. R. Carr and J. L. Hennessy, “WSClock— 
ASimple and Effective Algorithm for Virtual Memory Management”, Proceedings 
of the ACM Symposium on Operating Systems Principles (1981), pages 87-95. 


[Denning (1968)] P. J. Denning, “The Working Set Model for Program 
Behavior”, Communications of the ACM, Volume 11, Number 5 (1968), pages 
323-333. 


[Denning (1980)] P. J. Denning, “Working Sets Past and Present”, IEEE Trans- 
actions on Software Engineering, Volume SE-6, Number 1 (1980), pages 64-84. 


[Ganapathy and Schimmel (1998)] N. Ganapathy and C. Schimmel, “General 
Purpose Operating System Support for Multiple Page Sizes”, Proceedings of the 
USENIX Technical Conference (1998). 

[Kilburn et al. (1961)] T. Kilburn, D. J. Howarth, R. B. Payne, and F. H. Sumner, 
“The Manchester University Atlas Operating System, Part I: Internal Organiza- 
tion”, Computer Journal, Volume 4, Number 3 (1961), pages 222-225. 


[Knowlton (1965)] K. C. Knowlton, “A Fast Storage Allocator”, Communications 
of the ACM, Volume 8, Number 10 (1965), pages 623-624. 


[Love (2010)] R. Love, Linux Kernel Development, Third Edition, Developer’s 
Library (2010). 


[Mattson et al. (1970)] R. L. Mattson, J. Gecsei, D. R. Slutz, and I. L. Traiger, 
“Evaluation Techniques for Storage Hierarchies”, IBM Systems Journal, Volume 
9, Number 2 (1970), pages 78-117. 


[McDougall and Mauro (2007)] R. McDougall and J. Mauro, Solaris Internals, 
Second Edition, Prentice Hall (2007). 


[McKusick and Neville-Neil (2005)] M. K. McKusick and G. V. Neville-Neil, The 
Design and Implementation of the FreeBSD UNIX Operating System, Addison Wesley 
(2005). 


[Navarro et al. (2002)] J. Navarro, S. Lyer, P. Druschel, and A. Cox, “Practi- 
cal, Transparent Operating System Support for Superpages”, Proceedings of the 
USENIX Symposium on Operating Systems Design and Implementation (2002). 


[Organick (1972)] E. I. Organick, The Multics System: An Examination of Its Struc- 
ture, MIT Press (1972). 


[Peterson and Norman (1977)] J. L. Peterson and T. A. Norman, “Buddy Sys- 
tems”, Communications of the ACM, Volume 20, Number 6 (1977), pages 421-431. 


[Prieve and Fabry (1976)] B. G. Prieve and R. S. Fabry, “VMIN—An Optimal 
Variable Space Page-Replacement Algorithm”, Communications of the ACM, 
Volume 19, Number 5 (1976), pages 295-297. 


[Purdom, Jr. and Stigler (1970)] P. W. Purdom, Jr. and S. M. Stigler, “Statistical 


307 


308 


FAD AFF 


Properties of the Buddy System”, J. ACM, Volume 17, Number 4 (1970), pages 
683-697. 


[Russinovich and Solomon (2005)] M. E. Russinovich and D. A. Solomon, 
Microsoft Windows Internals, Fourth Edition, Microsoft Press (2005). 


[Solomon and Russinovich (2000)] D.A.Solomonand M. E. Russinovich, Inside 
Microsoft Windows 2000, Third Edition, Microsoft Press (2000). 


[Stephenson (1983)] C. J. Stephenson, “Fast Fits: A New Method for Dynamic 
Storage Allocation”, Proceedings of the Ninth Symposium on Operating Systems 
Principles (1983), pages 30-32. 


[Wilson et al. (1995)] P. R. Wilson, M. S. Johnstone, M. Neely, and D. Boles, 
“Dynamic Storage Allocation: A Survey and Critical Review”, Proceedings of the 
International Workshop on Memory Management (1995), pages 1-116. 


[Wulf (1969)] W. A. Wulf, “Performance Monitors for Multiprogramming Sys- 
tems”, Proceedings of the ACM Symposium on Operating Systems Principles (1969), 
pages 175-181. 


| 第 四 部 分 


Operating System Concepts, Ninth Edition 


存储 管理 





由 于 内 存 通 常 太 小 而 且 不 能 永久 保存 所 有 数据 和 程序 ， 因 此 计算 机 
系统 必须 提供 外 存 来 备份 内 存 。 现 代 计 算 机 系统 采用 磁盘 作为 信息 (程序 
与 数据 ) 的 主要 在 线 存储 介质 。 文 件 系统 提供 机 制 ， 以 便 在 线 存 储 和 访问 
磁盘 的 数据 与 程序 。 文 件 是 由 创建 者 定义 的 相关 信息 的 集合 。 这 些 文件 
由 操作 系统 映射 到 物理 设备 。 文 件 通 常 按 目 录 来 组 织 ， 以 便 使 用 。 

计算 机 连接 的 设备 在 许多 方面 都 有 差异 。 有 的 设备 一 次 传输 一 个 字 
符 或 一 个 字符 块 。 有 的 只 能 顺序 访问 ， 有 的 可 以 随机 访问 。 有 的 同步 传 
给 数据 ， 有 的 异步 传输 数据 。 有 的 是 专用 的 ， 有 的 是 共享 的 。 有 的 是 只 
读 的 ， 有 的 是 可 读 写 的 。 它 们 的 速度 差别 很 大 。 在 许多 方面 ， 它 们 也 是 
最 慢 的 主要 计算 机 组 件 。 

由 于 所 有 的 这 些 设 备 差 异 ， 操 作 系 统 需 要 提供 各 种 功能 ， 以 便 应 用 
程序 控制 设备 的 各 个 方面 。 操作 系 统 1/0 子 系 统 的 一 个 关键 目标 是 为 系 
统 的 其 他 部 分 提供 最 为 简单 的 接口 。 由 于 设备 是 性 能 瓶颈 ， 另 一 个 关键 
是 优化 IO， 以 便 实 现 并 发 的 最 大 化 。 
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文件 系统 


对 于 大 多 数 用 户 ， 文 件 系 统 是 操作 系统 中 最 明显 的 部 分 。 它 提供 机 制 ， 以 便 对 计算 机 操 
作 系统 与 所 有 用 户 的 数据 与 程序 进行 在 线 存储 和 访问 。 文 件 系 统 由 两 个 不 同 的 部 分 组 成 : 文 
件 集合 ， 每 个 文件 存储 相关 数据 ; 目录 结构 ， 用 于 组 织 系统 内 的 所 有 文件 并 提供 文件 信息 。 
文件 系统 位 于 设备 上 ， 前 一 章 描述 过 ， 接 下 来 将 深入 讨论 。 在 本 章 ， 将 研究 文件 和 主要 目录 
结构 的 各 个 方面 ; 并 讨论 在 多 个 进程 、 用 户 和 计算 机 之 间 共 享 文件 的 语义 ; 最 后 ， 讨 论 各 
种 文件 保护 方法 〈 当 有 多 个 用 户 访问 文件 ， 并 且 需 要 控制 谁 可 以 访问 文件 以 及 如 何 访问 文件 
时 ， 这 是 必要 的 )。 

本 章 目标 

© 解释 文件 系统 功能 。 

© 描述 文件 系统 接口 。 

© 讨论 文件 系统 的 设计 权衡 ， 包 括 访问 方法 、 文 件 共享 、 文 件 加 锁 及 目录 结构 等 。 

© 探讨 文件 系统 保护 。 


10.1 文件 概念 


计算 机 可 以 在 各 种 存储 介质 (诸如 磁盘 、 人 磁带 和 光盘 ) 上 存储 信息 。 为 了 方便 使 用 计算 
机 系统 ， 操 作 系统 提供 了 信息 存储 的 统一 逻辑 视图 。 操 作 系 统 对 存储 设备 的 物理 属性 加 以 抽 
象 ， 从 而 定义 逻辑 存储 单位 ， 即 文件 (file)。 文 件 由 操作 系统 映射 到 物理 设备 上 。 这 些 存储 
设备 通常 是 非 易 失 性 的 ， 因 此 在 系统 重新 启动 之 间 内 容 可 以 持久 。 

文件 是 记录 在 外 存 上 的 相关 信息 的 命名 组 合 。 从 用 户 角 度 来 看 ， 文 件 是 逻辑 外 存 的 
最 小 分 配 单元 ; 也 就 是 说 ， 数 据 只 有 通过 文件 才能 写 到 外 存 。 通 常 ， 文 件 表示 程序 ( 源 
形式 和 目标 形式 ) 和 数据 。 数 据 文 件 可 以 是 数字 的 、 字 符 的 、 字 符 数 字 的 或 二 进 制 的 。 
文件 可 以 是 自由 形式 的 ， 例 如 文本 文件 , 或 者 可 以 是 具有 严格 格式 的 。 通 常 ， 文 件 为 
位 、 字 节 、 行 或 记录 的 序列 ， 其 含义 由 文件 的 创建 者 和 用 户 定义 。 因 此 ， 文 件 概念 非常 
通用 。 

文件 信息 由 创建 者 定义 。 文 件 可 存储 许多 不 同类 型 的 信息 ， 如 源 程序 或 可 执行 程序 、 数 
字 或 文本 数据 、 照 片 、 音 乐 、 视 频 等 。 文 件 具 有 某 种 定义 的 结构 ， 这 取决 于 其 类 型 。 文 本 文 
件 (text file) 为 按 行 (可 能 还 有 页 ) 组 织 的 字符 序列 ， 源 文件 (source file) 为 函数 序列 ， 而 
每 个 函数 包括 声明 和 可 执行 语句 。 可 执行 文件 (executable file) 为 一 系列 代码 段 ， 以 供 加 载 
程序 调和 内存 并 执行 。 


10.1.1 文件 属性 


文件 被 命名 以 方便 人 类 用 户 ， 并 且 通 过 名 称 可 以 引用 。 名 称 通常 为 字符 串 ， 例 
如 example.c。 有 的 系统 区 分 名 称 内 的 大 小 写字 符 ， 而 其 他 系统 则 不 区 分 。 当 文件 


被 命名 后 ， 它 就 独立 于 进程 、 用 户 ， 甚 至 创建 它 的 系统 。 例 如 ， 一 个 用 户 可 能 创建 文 
{F example.c， 而 另 一 个 用 户 可 能 通过 这 个 名 称 来 编辑 它 。 文 件 所 有 者 可 能 会 将 文件 
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5 A USB 盘 ， 或 作为 email 附件 发 送 ， 或 复制 到 网 络 上 并 且 在 目标 系统 上 仍 可 称 为 


example.co 


文件 的 属性 因 操作 系统 而 异 ， 但 通常 包括 : 


© AR: 符号 文件 名 是 以 人 类 可 读 形式 来 保存 的 唯一 信息 。 
e 标识 符 : 这 种 唯一 标记 (通常 为 数字 ) 标识 文件 系统 的 文件 ; 它 是 文件 的 非 人 类 可 读 


的 名 小 。 
o 类 型 : 支持 不 同类 型 文件 的 系统 需要 这 种 信息 。 


。 位 置 : 该 信息 为 指向 设备 与 设备 上 文件 位 置 的 指针 。 


e 尺寸 : 该 属性 包括 文件 的 当前 大 小 (以 字 节 、 字 或 块 为 单位 ) 以 及 可 能 允许 的 最 大 


RY. 

e 保护 : 访问 控制 信息 确定 谁 能 进行 读 取 、 写 人 、 

执行 等 。 

e 时 间 、 日 期 和 用 户 标识 : 文件 创建 、 最 后 修改 和 

最 后 使 用 的 相关 信息 可 以 保存 。 这 些 数据 用 于 保 
护 、 安 全 和 使 用 监控 。 

有 些 较 新 的 文件 系统 还 支持 扩展 文件 属性 
( extended file attribute)， 包 括 文件 的 字符 编码 和 安全 功 
能 ， 如 文件 校 验 和 。 图 10-1 为 Mac OS X 上 的 文件 信息 
窗口 (file info window)， 用 于 显示 文件 属性 。 

所 有 文件 的 信息 保存 在 目录 结构 中 ， 该 目录 结构 也 
保存 在 外 存 上 。 通 常 ， 目 录 条 目 由 文件 的 名 称 及 其 唯一 
标识 符 组 成 。 根 据 标 识 符 可 定位 其 他 文件 属性 。 记 录 每 
个 文件 的 这 些 信 息 可 能 超过 1KB 字 节 。 在 具有 许多 文 
件 的 系统 中 ， 目 录 本 身 的 大 小 可 能 有 数 兆 字 节 。 由 于 目 
录 (如 文件 ) 必须 是 非 易 失 性 的 ， 因 此 必须 存在 设备 上 ， 
并 根据 需要 而 被 调 入 内存。 


10.1.2 文件 操作 








图 10-1 Mac OS X 的 文件 信息 窗口 


文件 为 抽象 数据 类 型 。 为 了 正确 定义 文件 ， 需 要 考虑 可 以 对 文件 执行 的 操作 。 操 作 系 
统 可 以 提供 系统 调用 ， 来 创建 、 写 人 、 读 取 、 重 新 定位 、 删 除 及 截断 文件 。 下 面 讨论 操作 系 
统 如 何 执行 这 6 个 基本 文件 操作 。 然 后 ， 应 该 容易 理解 如 何 实现 其 他 的 类 似 操作 ， 如 重 命名 


文件 ; 


© 创建 文件 : 创建 文件 需要 两 个 步 又。 首先， 必须 在 文件 系统 中 为 文件 找到 空间 。 第 
11 章 会 讨论 如 何 为 文件 分 配 空间 。 其 次 ， 必 须 在 目录 中 创建 新 文件 的 条 目 。 

© 写 文件 : 为 了 写 文件 ， 使 用 一 个 系统 调用 指定 文件 名 称 和 要 写 人 文件 的 信息 。 根 据 给 
定 的 文件 名 称 ， 系 统 搜索 目录 以 查找 文件 位 置 。 系 统 应 保留 写 指针 (〈 write pointer), 
用 于 指向 需要 进行 下 次 写 操 作 的 文件 位 置 。 每 当 发 生 写 操 作 时 ， 写 指针 必须 被 
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更 新 。 

e 读 文件 : 为 了 读 文 件 ， 使 用 一 个 系统 调用 ， 指 明文 件 名 称 和 需要 文件 的 下 一 个 块 应 
该 放 在 哪里 (在 内 存 中 )。 同 样 ， 搜 索 目 录 以 找到 相关 条 目 ， 系统 需 要 保留 一 个 读 指 
针 (read pointer)， 指 向 要 进行 下 一 次 读 取 操作 的 文件 位 置 。 一 旦 发 生 了 读 取 ， 读 指 
针 必 须 被 更 新 。 因 为 进程 通常 从 文件 读 取 或 写 到 文件 ， 所 以 当前 操作 位 置 可 以 作为 
进程 的 当前 文件 位 置 指针 (current-file-position pointer)。 读 和 写 操作 都 使 用 相同 的 指 
针 ， 可 节省 空间 并 降低 系统 复杂 性 。 

e 重新 定位 文件 : 搜索 目录 以 寻找 适当 的 条 目 ， 并 且 将 当前 文件 位 置 指 针 重 新 定位 到 给 
定 值 。 重 新 定位 文件 不 需要 涉及 任何 实际 的 IO。 这 个 文件 操作 也 称 为 文件 定位 (file 
seek). 

e 删除 文件 : 为 了 删除 文件 ， 在 目录 中 搜索 给 定名 称 的 文件 。 找 到 关联 的 目录 条 目 后 ， 
释放 所 有 文件 空间 ， 以 便 它 可 以 被 其 他 文件 重复 使 用 ， 并 删除 目录 条 目 。 

e 截断 文件 : 用 户 可 能 想 要 删除 文件 的 内 容 ， 但 保留 它 的 属性 。 不 是 强制 用 户 删 除 文 
件 再 创建 文件 ， 这 个 功能 允许 所 有 属性 保持 不 变 ,( 除 了 文件 长 度 )， 但 让 文件 重 置 为 
零 ， 并 释放 它 的 文件 空间 。 

这 6 个 基本 操作 组 成 了 所 需 文件 操作 的 最 小 集合 。 其 他 常见 操作 包括 : 将 新 信息 附加 到 

现 有 文件 的 末尾 和 重 命 名 现 有 文件 。 然 后 ， 这 些 基本 操作 可 以 组 合 起 来 实现 其 他 文件 操作 。 
例如 ， 创 建 一 个 文件 副本 ， 或 复制 文件 到 另 一 IO 设备 ， 如 打印 机 或 显示 器 ， 可 以 这 样 来 完 
成 : 创建 一 个 新 文件 ， 从 旧 文 件 读 入 并 写 出 到 新 文件 。 还 希望 有 文件 操作 ， 以 用 于 获取 和 设 
置 文件 的 各 种 属性 的 操作 。 例 如 ， 可 能 需要 操作 以 允许 用 户 确定 文件 状态 ， 如 文件 长 度 ; 设 
置 文件 属性 ， 如 文件 所 有 者 等 。 

以 上 提 及 的 大 多 数 文件 操作 涉及 搜索 目录 ， 以 得 到 命名 文件 的 相关 条 目 。 为 了 避免 这 种 
不 断 的 搜索 ， 许 多 系统 要 求 ， 在 首次 使 用 文件 之 前 进行 系统 调用 open() 。 操 作 系 统 有 一 个 
打开 文件 表 ( open-file table) 以 用 于 维护 所 有 打开 文件 的 信息 。 当 请 求 文件 操作 时 ， 可 通过 
该 表 的 索引 指定 文件 ， 而 不 需要 搜索 。 当 文件 最 近 不 再 使 用 时 ， 进 程 关 闭 它 ， 操 作 系 统 从 打 
开 文 件 表 中 删除 它 的 条 目 。 系 统 调 用 create() 和 delete() 是 针对 关闭 文件 而 不 是 打开 文 
件 而 进行 操作 的 。 

有 的 系统 在 首次 引用 文件 时 ， 会 隐 式 地 打开 它 。 当 打开 文件 的 作业 或 程序 终止 时 ， 将 
自动 关闭 它 。 然 而 ， 大 多 数 操作 系统 要 求 ， 程 序 员 在 使 用 文件 之 前 通过 系统 调用 open() 显 
式 地 打开 它 。 操 作 open() 根据 文件 名 搜索 目录 ， 以 将 目录 条 目 复制 到 打开 文件 表 。 调 用 
open() 也 会 接受 访问 模式 信息 ， 如 创建 、 只 读 、 读 写 、 只 附加 等 。 根 据 文件 权限 ， 检 查 这 
种 模式 。 如 果 人 允许 请 求 模式 ， 则 会 为 进程 打开 文件 。 系 统 调用 open() 通常 返回 一 个 指针 ， 
以 指向 打开 文件 表 的 对 应 条 目 。 这 个 指针 ， 而 不 是 实际 的 文件 名 ,会 用 于 所 有 IO 操作 ， 以 
避免 任何 进一步 搜索 ， 并 简化 系统 调用 接口 。 

对 于 多 个 进程 可 以 同时 打开 文件 的 环境 ， 操 作 open() 和 close() 的 实现 更 加 复杂 。 在 
多 个 不 同 的 应 用 程序 同时 打开 同一 个 文件 的 系统 中 ， 这 可 能 发 生 。 通 常 ， 操 作 系统 采用 两 级 
的 内 部 表 : 每 个 进程 表 和 整个 系统 表 。 每 个 进程 表 跟 踪 它 打开 的 所 有 文件 。 该 表 所 存 的 是 进 
程 对 文件 的 使 用 信息 。 例 如 ， 每 个 文件 的 当前 文件 指针 就 存在 这 里 ， 文 件 访问 权限 和 记 账 信 
息 也 存在 这 里 。 


ZIE SHA Ë 313 


单个 进程 表 的 每 个 条 目 相 应 地 指向 整个 系统 的 打开 文件 表 。 系 统 表 包含 与 进程 无 关 
的 信息 ， 如 文件 在 磁盘 上 的 位 置 、 访 问 日 期 和 文件 大 小 。 一 旦 有 进程 打开 了 一 个 文件 ， 系 
统 表 就 包含 该 文件 的 条 目 。 当 另 一 个 进程 执行 调用 open() ， 只 要 简单 地 在 其 进程 打开 表 
中 增加 一 个 条 目 ， 并 指向 系统 表 的 相应 条 目 。 通 常 ， 系 统 打 开 文 件 表 为 每 个 文件 关联 一 个 
打开 计数 ( open count)， 用 于 表示 多 少 进程 打开 了 这 个 文件 。 每 次 close() 递减 打开 计 
数 ; 当 打 开 计 数 为 0 时 ， 表 示 不 再 使 用 该 文件 ， 并 且 可 从 系统 打开 文件 表 中 删除 这 个 文件 
条 目 。 
总 而 言 之 ， 每 个 打开 文件 具有 如 下 关联 信息 : 
e 文件 指针 : 对 于 没有 将 文件 偏 移 作 为 系统 调用 read() 和 write() 参数 的 系统 ， 系 统 
必须 跟踪 上 次 读 写 位 置 ， 以 作为 当前 文件 位 置 指针 。 该 指针 对 操作 文件 的 每 个 进程 
是 唯一 的 ， 因 此 必须 与 磁盘 文件 属性 分 开 保存 。 
© 文件 打开 计数 : 当 文 件 关 闭 时 ， 操 作 系 统 必须 重新 使 用 它 的 打开 文件 表 的 条 目 ， 否 
则 表 的 空间 会 不 够 用 。 多 个 进程 可 能 打开 同一 文件 ， 这 样 在 删除 它 的 打开 文件 表 条 
目 之 前 ， 系 统 必须 等 待 最 后 一 个 进程 关闭 这 个 文件 。 文 件 打开 计数 跟踪 打开 和 关闭 
的 次 数 ， 在 最 后 关闭 时 为 0。 然 后， 系统 可 以 删除 这 个 条 目 。 
e 文件 的 磁盘 位 置 : 大 多 数 文件 操作 要 求 系统 修改 文件 数据 。 查 找 磁盘 上 的 文件 所 需 
的 信息 保存 在 内 存 中 ， 以 便 系统 不 必 为 每 个 操作 从 磁盘 上 读 取 该 信息 。 
© 访问 权限 : 每 个 进程 采用 访问 模式 打开 文件 。 这 种 信息 保存 在 进程 的 打开 文件 表 中 ， 
因此 操作 系统 可 以 允许 或 拒绝 后 续 的 1/O 请 求 。 
有 的 操作 系统 提供 功能 ， 用 于 锁定 打开 的 文件 (或 文件 的 部 分 )。 文 件 锁 (file lock) 多 
许 一 个 进程 锁定 文件 ， 以 防止 其 他 进程 访问 它 。 文 件 锁 对 于 多 个 进程 共享 的 文件 很 有 用 ， 例 
如 ， 系 统 中 的 多 个 进程 可 以 访问 和 修改 的 系统 日 志文 件 。 
文件 锁 提 供 类 似 于 6.7.2 节 所 述 的 读者 -SAM HEM (shared lock) 类 似 于 读者 锁 ， 
以 便 多 个 进程 可 以 并 发 获取 它 。 独 占 锁 (exclusive lock) 类 似 于 写 者 锁 ; 一 次 只 有 一 个 进程 
可 以 获取 这 样 的 锁 。 重 要 的 是 要 注意 ， 并 非 所 有 操作 系统 都 提供 两 种 类 型 的 锁 : 有 些 系统 仅 
提供 独占 文件 锁 。 
另外 ， 操 作 系统 可 以 提供 强制 (mandatory) 或 建议 (advisory) 文件 锁定 机 制 。 如 果 锁 
是 强制 性 的 ， 则 一 旦 进程 获取 独占 锁 ， 操 作 系 统 就 阻止 任何 其 他 进程 访问 锁定 的 文件 。 例 
如 ， 假 设 有 一 个 进程 获取 了 文件 system.1og 的 独占 锁 。 如 果 男 一 进程 (如 文本 编辑 器 ) 尝 
试 打开 system.log， 则 操作 系统 将 阻止 访问 ， 直 到 独占 锁 被 释放 。 即 使 文本 编辑 器 并 没 明 
确 地 获取 锁 ， 也 会 发 生 这 种 情况 。 或 者 ， 如 果 锁 是 建议 性 的 ， 则 操作 系统 不 会 阻止 文本 编辑 
器 获取 对 system.1og 的 访问 。 相 反 ， 必 须 编写 文本 编辑 器 ， 以 便 在 访问 文件 之 前 手动 获取 
锁 。 换 名 话说， 如果 锁定 方案 是 强制 性 的 ， 则 操作 系统 确保 锁定 完整 性 。 对 于 建议 锁定 ， 软 
件 开 发 人 员 应 确保 适当 地 获取 和 释放 锁 。 作 为 一 般 规 则 ，Windows 操作 系统 采用 强制 锁定 ， 
UNIX 系统 采用 建议 锁定 。 
使 用 文件 锁定 ， 与 普通 进程 同步 一 样 ， 还 是 需要 谨慎 的 。 例 如 ， 程 序 员 在 具有 强制 锁定 
的 系统 上 开发 时 ， 应 小 心地 确保 只 有 在 访问 文件 时 才 锁 定 独占 文件 。 否 则 ， 他 们 将 阻止 其 他 
进程 也 对 文件 进行 访问 。 此 外 ， 必 须 采取 一 些 措施 ， 来 确保 两 个 或 更 多 进程 在 尝试 获取 文件 
锁 时 不 会 卷 人 死 锁 。 
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Java 的 文件 锁定 
获取 锁 的 Java API 需要 首先 获得 所 要 访问 文件 的 FileChannel。FileChannel 的 方 
法 lock() 用 于 获取 锁 。 方 法 lock() 用 于 获取 锁 。lock() 方法 的 API 为 


FileLock lock(long begin, long end, boolean shared) 


其 中 begin frend 是 锁定 区 域 的 开始 和 结束 位 置 。 对 于 共享 锁 ， 将 shared 设 为 true ; 
对 于 独占 锁 ， 将 shared 设 为 false。 通 过 调用 由 操作 lock() 返回 的 FileLock 的 方法 
release() ， 来 释放 锁 。 

图 10-2 中 的 程序 演示 Java 的 文件 锁定 。 这 个 程序 获取 文件 file.txt 的 两 个 锁 。 文 
件 的 前 半 部 分 获取 独占 锁 ; 后 半 部 分 的 锁 为 共享 锁 。 


FILE LOCKING IN JAVA (Continued) 


import java.io.*; 
import java.nio.channels.*; 


public class LockingExample { 
public static final boolean EXCLUSIVE = false; 
public static final boolean SHARED = true; 


public static void main(String args[]) throws IOException { 
FileLock sharedLock = null; 
FileLock exclusiveLock = null; 


try { 
RandomAccessFile raf = new RandomAccessFile("file.txt","rw") ; 


// get the channel for the file 
FileChannel ch = raf.getChannel () ; 


// this locks the first half of the file - exclusive 
exclusiveLock = ch.lock(0, raf.length()/2, EXCLUSIVE); 


/** Now modify the data... */ 


// release the lock 
exclusiveLock. release () ; 


// this locks the second half of the file - shared 
sharedLock = ch.lock(raf.length() /2+1,raf.length() , SHARED) ; 


/** Now read the data . . . */ 


// release the lock 
sharedLock. release () ; 

} catch (java.io.IOException ice) { 
System.err.println (ioe); 





finally { 
if (exclusiveLock != null) 
exclusiveLock. release () ; 
if (sharedLock != null) 
sharedLock, release () ; 





图 10-2 文件 锁定 的 Java 示例 
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10.1.3 ”文件 类 型 


当 设计 文件 系统 (甚至 整个 操作 系统 ) 时 ， 总 是 需要 考虑 操作 系统 是 否 应 该 识别 和 支持 
文件 类 型 。 如 果 操 作 系 统 识别 文件 的 类 型 ， 则 它 就 能 按 合理 的 方式 来 操作 文件 。 例 如 ， 一 个 
经 常 发 生 的 错误 就 是 ， 用 户 尝试 输出 二 进 制 目 标 形式 的 一 个 程序 。 这 种 尝试 通常 会 产生 垃 
圾 ; 然而 ， 如 果 操 作 系 统 已 得 知 一 个 文件 是 二 进 制 目标 程序 ， 则 尝试 可 以 成 功 。 

实现 文件 类 型 的 常见 技术 是 将 类 型 作为 文件 名 的 一 部 分 。 文 件 名 分 为 两 部 分 ， 即 名 称 和 
扩展 ,通常 由 句点 分 开 (图 10-3 )。 这 样 ， 用 户 和 操作 系统 仅 从 文件 名 就 能 得 知 文件 的 类 型 。 
大 多 数 操作 系统 允许 用 户 将 文件 名 命名 为 字符 序列 ， 后 跟 一 个 句点 ， 再 以 由 附加 字符 组 成 的 
扩展 名 结束 。 示 例 包 括 resume.docx, server.c 和 ReaderThread.cpp。 


可 执行 文件 可 运行 的 机 器 语言 程序 
目标 文件 已 编译 的 、 尚 未 链接 的 机 器 语言 
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wes bat sh_———*dC 
fiat 


xml, rtf,docx 各 种 文字 处 理 程序 的 格式 
为 程序 员 提供 的 程序 库 
打印 或 可 视 文件 打印 或 图 像 格式 的 ASCI 或 二 进 制 文件 
相关 文件 组 成 的 一 个 文件 ，( 有 时 压缩 ) 用 于 归档 或 存储 
包含 音频 或 A/V 信息 的 二 进 制 文件 


图 10-3 ”常用 文件 类 型 


操作 系统 使 用 扩展 名 来 指示 文件 类 型 和 可 用 于 文件 的 操作 类 型 。 例 如 ， 只 有 扩展 名 
为 .com、.exe 或 .sh 的 文件 才能 执行 。.com 和 .exe 文件 是 两 种 形式 的 二 进 制 可 执行 文 
件 ， 而 .sh 文件 是 外 壳 脚本 (shell script)， 包 含 ASCII 格式 的 操作 系统 命令 。 应 用 程序 也 
使 用 扩展 名 来 表示 所 感 兴趣 的 文件 类 型 。 例 如 ，Java 编译 器 的 源 文 件 具 有 .java 扩展 名 ， 
Microsoft Word 字 处 理 程序 的 文件 以 .doc 或 .docx 扩展 名 来 结束 。 这 些 扩展 名 不 总 是 必需 
的 ， 因 此 用 户 可 以 不 用 扩展 名 (节省 打字 ) 来 指明 文件 ， 应 用 程序 根据 给 定 的 名 称 和 预期 的 
扩展 名 来 查找 文件 。 因 为 这 些 扩 展 名 没有 操作 系统 的 支持 ， 所 以 它们 只 能 作为 应 用 程序 的 

下 面 考虑 Mac OS X 操作 系统 。 这 个 系统 的 每 个 文件 都 有 类 型 ， 例 如 .app (用 于 应 用 
程序 )。 每 个 文件 还 有 一 个 创建 者 属性 ， 用 来 包含 创建 它 的 程序 名 称 。 这 种 属性 是 由 操作 系 
统 在 调用 create() 时 设置 的 ， 因 此 其 使 用 由 系统 强制 和 支持 。 例 如 ， 由 字 处 理 器 创建 的 文 
件 采 用 字 处 理 器 名 称 作 为 创建 者 。 当 用 户 通 过 在 表示 文件 的 图 标 上 双击 鼠标 以 打开 文件 ， 就 
会 自动 调用 字 处 理 器 ， 并 加 载 文件 以 便 编 辑 。 

UNIX 系统 采用 位 于 某 些 文件 开始 部 分 的 幻 数 ( magic number)， 大 致 表明 文件 类 型 ， 如 
可 执行 程序 、shell 脚本 、PDF 文件 等 。 不 是 所 有 文件 都 有 幻 数 ， 因 此 系统 特征 不 能 仅仅 基 
于 这 种 信息 。UNIX 也 不 记录 创建 程序 的 名 称 。UNIX 允许 文件 名 扩展 提示 ， 但 是 操作 系统 
既 不 强制 也 不 依赖 这 些 扩展 名 ; 这 些 扩展 名 主要 帮助 用 户 确定 文件 内 容 的 类 型 。 扩 展 名 可 以 
由 给 定 的 应 用 程序 采用 或 忽略 ,但 这 是 由 应 用 程序 的 开发 者 所 决定 的 。 


文本 数据 、 文 档 


源 代码 文件 各 种 语言 的 源 代码 
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10.1.4 文件 结构 


文件 类 型 也 可 用 于 指示 文件 的 内 部 结构 。 如 10.1.3 节 所 述 ， 源 文件 和 目标 文件 具有 一 
定 结构 ， 以 便 匹 配 读 取 它 们 的 程序 的 期 望 。 此 外 ， 有 些 文件 必须 符合 操作 系统 理解 的 所 需 结 
构 。 例 如 ， 操 作 系统 要 求 可 执行 文件 具有 特定 的 结构 ， 以 便 可 以 确定 将 文件 加 载 到 内 存 的 哪 
里 以 及 第 一 条 指令 的 位 置 是 什么 。 有 些 操作 系统 将 这 种 想法 扩展 到 系统 支持 的 一 组 文件 结 
构 ， 以 便 采用 特殊 操作 来 处 理 具有 这 些 结构 的 文件 。 

让 操作 系统 支持 多 个 文件 结构 带 来 一 个 缺点 ， 操作 系统 会 变 得 太 复杂 。 如 果 操 作 系统 定 
义 了 5 个 不 同 的 文件 结构 ， 则 它 需 要 包含 代码 ， 以 便 支 持 这 些 文件 结构 。 此 外 ， 可 能 需要 将 
每 个 文件 定义 为 操作 系统 支持 的 文件 类 型 之 一 。 如 果 新 应 用 程序 需要 按 操作 系统 不 支持 的 方 
式 来 组 织 信息 ， 则 可 能 导致 严重 的 问题 。 

例如 ， 假 设 有 个 系统 支持 两 种 类 型 的 文件 : 文本 文件 (由 回 车 符 和 换行 符 分 隔 的 ASCII 
字符 组 成 ) 和 可 执行 的 二 进 制 文件 。 现 在 ， 如 果 我 们 (作为 用 户 ) 想 要 定义 一 个 加 密 的 文件 ， 
以 保护 内 容 不 被 未 经 授权 的 人 读 取 ， 则 我 们 可 能 会 发 现 两 种 文件 类 型 都 不 合适 。 加 密 文 件 不 
Æ ASCI 文本 行 ， 而 是 〈 看 起 来 ) 随机 位 。 虽 然 加 密 文 件 看 起 来 是 二 进 制 文件 ， 但 是 它 不 是 
可 执行 的 。 因 此 ， 我 们 可 能 要 么 必须 绕 过 或 滥用 操作 系统 文件 类 型 机 制 ， 要 么 放弃 加 密 方案 。 

有 些 操作 系统 强加 (并 支持 ) 最 小 数量 的 文件 结构 。UNIX、Windows 等 都 采用 这 种 方案 。 
UNIX 认为 每 个 文件 为 8 位 字 节 序列 ; 而 操作 系统 并 不 对 这 些 位 做 出 解释 。 这 种 方案 提供 了 
最 大 的 灵活 性 ， 但 是 支持 的 也 很 少 。 每 个 应 用 程序 必须 包含 自己 的 代码 ， 以 便 按 适当 结构 来 
解释 输入 文件 。 但是， 所 有 操作 系统 必须 支持 至 少 一 种 结构 ， 即 可 执行 文件 的 结构 ， 以 便 系 
统 能 够 加 载 和 运行 程序 。 


10.1.5 内 部 文件 结构 


在 内 部 ， 定 位 文件 的 偏 移 对 操作 系统 来 说 可 能 是 比较 复杂 的 。 磁 盘 系统 通常 具有 明确 定 
义 的 块 大 小 ， 这 是 由 麟 区 大 小 决定 的 。 所 有 磁盘 IO 按 块 (物理 记录 ) 为 单位 执行 ， 而 所 有 
块 的 大 小 相同 。 物 理 记录 大 小 不 太 可 能 刚好 匹配 期 望 的 逮 辑 记录 的 长 度 。 逮 辑 记录 的 长 度 其 
至 可 能 不 同 。 这 个 问题 的 常见 解决 方案 是 ， 将 多 个 逻辑 记录 包装 到 物理 块 中 。 

例如 ，UNIX 操作 系统 将 所 有 文件 定义 为 简单 的 字 节 流 。 每 个 字 节 可 以 通过 距 文 件 的 开 
始 (或 结束 ) 的 偏 移 来 单独 寻 址 。 在 这 种 情况 下 ， 逻 辑 记录 大 小 为 1 字 节 。 根 据 需要 ， 文 件 
系统 通常 会 自动 将 字 节 打包 以 存 人 物理 磁盘 块 ， 或 从 磁盘 块 中 解 包 得 到 字 节 (每 块 可 为 512 
字 节 )。 

逻辑 记录 大 小 、 物 理 块 大 小 和 打包 技术 确定 了 每 个 物理 块 可 有 和 多少 逻辑 记录 。 打 包 可 以 
通过 用 户 应 用 程序 或 操作 系统 来 完成 。 不 管 如 何 ， 文 件 都 可 当 作 块 的 序列 。 所 有 基本 IO 功 
能 都 以 块 为 单位 来 进行 。 从 逻辑 记录 到 物理 块 的 转换 是 个 相对 简单 的 软件 问题 。 

由 于 磁盘 空间 总 是 按 块 为 单位 来 分 配 的 ， 因 此 每 个 文件 的 最 后 一 块 的 某 些 部 分 通常 会 被 
浪费 。 例 如 ， 如 果 每 个 块 是 512 字 节 ， 则 1949 字 节 的 文件 将 分 得 4 个 块 (2048 FW); 最 
后 99 字 节 就 浪费 了 。 按 块 (而 不 是 字 节 ) 为 单位 来 保持 一 切 而 浪费 的 字 节 称 为 内 部 碎片 。 
所 有 文件 系统 都 有 内 部 碎片 ; 块 大 小 越 大 ， 内 部 碎片 也 越 大 。 


10.2 访问 方法 
文件 存储 信息 。 当 使 用 时 ， 必 须 访问 这 种 信息 ， 并 将 其 读 到 计算 机 内 存 。 文 件 信息 可 按 
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多 种 方式 来 访问 。 有 些 系统 只 为 文件 提供 一 种 访问 方法 ; 而 其 他 的 支持 多 种 访问 方法 ， 而 为 
特定 应 用 选择 正确 方法 是 主要 的 设计 问题 。 


10.2.1 顺序 访问 


最 简单 的 访问 方法 是 顺序 访问 ( sequential access)。 文 件 信息 按 顺 序 ( 即 一 个 记录 接着 
一 个 记录 地 ) 加 以 处 理 。 这 种 访问 模式 是 目前 最 常见 的 ; 例如 ， 编 辑 器 和 编译 器 通常 以 这 种 
方式 访问 文件 。 

读 和 写 构 成 文件 的 大 部 分 操作 。 读 操作 ， 如 read_next() ， 读 取 文 件 的 下 一 部 分 ， 并 
且 自 动 前 移 文件 指针 以 便 跟踪 IO 人 位置。 类似 地 ， 写 操作 ， 如 write_next() ， 会 对 文件 的 
结尾 附加 内 容 ， 并 前 移 到 新 写 材 料 的 末尾 〈 文 件 的 新 结尾 )。 这 样 的 文件 可 以 被 重 置 到 开始 ; 
有 些 系统 可 以 向 前 或 向 后 跳 过 nn 个 记录 ， 这 里 为 某 个 整数 (可 能 n 仅 为 1)。 图 10-4 所 示 
的 顺序 访问 是 基于 文件 的 磁带 模型 ， 它 不 但 适用 于 顺序 访问 设备 ， 也 适用 于 随机 访问 设备 。 


当前 位 
开始 当前 位 置 









结束 


图 10-4 顺序 访问 文件 


10.2.2 直接 访问 


另 一 种 方法 是 直接 访问 (direct access) 或 相对 访问 (relative access)。 这 里 ,文件 由 固 
定 长 度 的 逻辑 记录 (logical records) 组 成 ， 以 允许 程序 按 任意 顺序 进行 快速 读 取 和 写 入 记 
录 。 直 接 访问 方法 基于 文件 的 磁盘 模型 ， 因 为 磁盘 允许 对 任何 文件 块 的 随机 访问 。 对 于 直接 
访问 ， 文 件 可 作为 块 或 记录 的 编号 序列 。 因 此 ， 可 以 先 读 取 块 14， 再 读 取 块 S3 ， 最 后 再 写 
块 7。 对 于 直接 访问 文件 的 读 取 或 写 人 的 顺序 没有 限制 。 

对 于 大 量 信息 的 立即 访问 ， 直 接 访问 文件 极为 有 用 。 数 据 库 通常 是 这 种 类 型 的 。 当 需要 
查询 特定 主题 时 ， 首 先 计 算 哪 个 块 包含 答案 ， 然 后 直接 读 取 相 应 块 以 提供 期 望 的 信息 。 

作为 一 个 简单 的 例子 ， 对 于 一 个 航班 订 票 系统 ， 可 以 将 特定 航班 《如 航班 713 ) 的 所 有 
信息 存储 在 由 航班 号 标识 的 块 中 。 因 此 ， 航 班 713 的 空位 数量 保存 在 订 票 文件 的 块 713 Eo 
为 了 存储 关于 更 大 的 集合 〈 例 如 人 群 ) 的 信息 ， 可 以 根据 人 名 计算 一 个 哈 希 函数 ， 或 者 搜索 
位 于 内 存 的 索引 以 确定 需要 读 取 和 搜索 的 块 。 

对 于 直接 访问 方法 ， 必 须 修改 文件 操作 以 便 包括 块 号 作为 参数 。 因 此 ， 有 read(n), 其 
中 nn 是 块 号 ,而 不 是 read_next() ; 有 write(n) ， 而 不 是 write_next() 。 另 一 种 方法 是 
保留 read_next() 和 write_next() 来 进行 顺序 访问 ; 并 增加 操作 position_file(n), 其 
中 是 块 号 。 这 样 ， 为 了 实现 read(n)，, 可 先 position_file(n), #} read_next(), 

用 户 提 供给 操作 系统 的 块 号 ,通常 为 相对 块 号 ( relative block number)。 相 对 块 号 是 相 
对 于 文件 开头 的 索引 。 因 此 ,文件 的 第 一 相对 块 是 0， 下 一 块 是 1， 等 等 ， 尽 管 第 一 块 的 真 
正 绝 对 磁盘 地 址 可 能 为 14703， 下 一 块 为 3192 等 。 使 用 相对 块 号 允许 操作 系统 决定 文件 应 
放置 在 哪里 〈 称 为 分 配 问题 (allocation problem)， 将 在 第 11 章 中 讨论 )， 以 阻止 用 户 访问 不 
属于 其 文件 的 其 他 的 文件 系统 部 分 。 有 的 系统 的 相对 块 号 从 0 开始 ， 其 他 的 从 1 开始 。 
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那么 系统 如 何 满足 对 某 个 文件 的 记录 X 的 请 求 呢 ?假设 逻辑 记录 长 度 为 L， 则 记录 N 
的 请 求 可 转换 为 从 文件 位 置 L* (N) 开始 的 工 字 节 的 请 求 〈 设 第 一 记录 为 Y= 0)。 由 于 逻辑 
记录 为 固定 大 小 ， 所 以 也 容易 读 、 写 和 删除 记录 。 
并 非 所 有 操作 系统 都 支持 文件 的 顺序 和 直接 访问 。 有 的 系统 只 允许 顺序 文件 访问 ， 也 有 
的 只 允许 直接 访问 。 有 的 系统 要 求 在 创建 文件 时 ———- 
将 其 定义 为 顺序 的 或 直接 的 。 这 样 的 文件 只 能 按 


与 声明 一 致 的 方式 来 访问 。 可 以 通过 简单 保持 当 
前 位 置 的 变量 op， 轻松 模拟 对 直接 访问 文件 的 顺 


序 访问 ， 如 图 10-5 所 示 。 然 而 ， 在 顺序 访问 文 和 
件 上 模拟 直接 访问 文件 是 非常 低 效 和 笨拙 的 。 和 


10.2.3 ”其 他 访问 方法 

其 他 访问 方法 可 以 建立 在 直接 访问 方法 之 上 。 这 些 访问 通常 涉及 创建 文件 索引 。 索 引 
(Cindex)， 如 书后 的 索引 ， 包 括 各 块 的 指针 。 为 了 在 文件 中 查找 记录 ， 首 先 搜 索索 引 ， 然 后 根 
据 指针 直接 访问 文件 并 且 找 到 所 需 记 录 。 

例如 ， 零 售 价 文件 可 能 列 出 商品 的 通用 产品 代码 〔〈Universal Product Codes, UPC) 及 相 
关 价 格 。 每 条 记录 包括 10 位 数 的 UPC 和 6 位 数 的 价格 ， 共 占 16 字 节 。 如 果 每 个 磁盘 块 有 
1024 字 节 ， 则 可 存 64 条 记录 。 具 有 120 000 条 记录 的 文件 将 占用 大 约 2000 块 (200 万 字 
节 )。 通 过 按 UPC 排序 文件 ， 可 以 定义 一 个 索引 ， 以 便 包括 每 块 的 首 条 UPC。 该 索引 会 有 
2000 个 条 目 ， 每 个 条 目 为 10 个 数字 ， 共 计 20 000 字 节 ， 因 此 可 以 保存 在 内 存 中 。 为 了 找到 
特定 商品 的 价格 ， 可 以 对 索引 进行 二 分 搜索 。 通 过 这 种 搜索 ， 可 以 准确 知道 哪个 块 包括 所 需 
记录 ， 并 访问 该 块 。 这 种 结构 允许 仅仅 通过 少量 IO 就 能 搜索 巨大 文件 。 

对 于 大 文件 ， 索 引文 件 本 身 可 能 变 得 太 大 而 无 法 保存 在 内 存 中 。 一 种 解决 方案 是 为 索引 
文件 创建 索引 。 主 索引 文件 包含 指针 ， 以 指向 辅助 索引 文件 ， 而 辅助 索引 文件 包括 指针 ， 以 
指向 实际 的 数据 项 。 

例如 ，IBM 的 索引 顺序 访问 方法 (Indexed Sequential-Access Method, ISAM) 采用 小 主 
索引 ， 以 指向 辅助 索引 的 磁盘 块 ; 辅助 索引 块 指 向 实际 文件 块 ; 而 文件 按 定 义 的 键 来 排序 。 
为 了 找到 特定 的 数据 项 ， 首 先 二 分 搜索 主 索引 ， 以 得 到 辅助 索引 的 块 号 。 读 入 该 块 ， 再 次 通 
过 二 分 搜索 找到 包含 所 需 记 录 的 块 。 最 后 ， 按 顺序 搜索 该 块 。 这 样 ， 通 过 记录 的 键 通过 至 多 
两 次 的 直接 访问 就 可 定位 记录 。 图 10-6 显示 了 一 个 类 似 情况 ， 这 是 通过 VMS 索引 和 相关 文 
件 来 实现 的 。 


; 















索引 文件 相对 文件 
图 10-6 索引 文件 和 相关 文件 的 例子 
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10.3 目录 与 磁盘 的 结构 


接 下 来 ， 考 虑 如 何 存 储 文件 。 当 然 ， 没有 通用 计算 机 只 能 存储 一 个 文件 。 每 台 计算 机 通 
常 有 数 千 、 数 百 万 ， 其 至 数 十 亿 个 的 文件 。 文 件 存储 在 随机 存 取 存储 设备 上 ， 包 括 硬盘 、 光 
盘 和 固态 (基于 内 存 ) 盘 。 

一 个 存储 设备 可 以 按 整体 来 用 于 文件 系统 ; 它 也 可 以 细 分 ， 以 提供 更 细 粒 度 的 控制 。 例 
如 ， 一 个 磁盘 可 以 划分 为 4 个 分 区 (partition)， 每 个 分 区 可 以 有 单独 的 文件 系统 。 存 储 设备 
还 可 以 组 成 RAID R, 一 起 提供 保护 以 免 受 单个 磁盘 故障 (如 12.7 节 所 述 )。 有 时 ， 磁 盘 会 
被 分 区 并 且 组 成 RAID 集 。 

分 区 可 用 于 限制 单个 文件 系统 的 大 小 ， 将 多 个 类 型 的 文件 系统 放 在 同一 设备 上 ， 或 留 下 
设备 的 一 部 分 以 为 他 用 ， 例 如 交换 空间 或 未 格式 化 (原始 ) 的 磁盘 空间 。 硬 盘 的 每 个 分 区 都 
可 用 于 创建 文件 系统 。 包 含 文件 系统 的 分 区 通常 称 为 卷 (volume)。 卷 可 以 是 设备 的 一 部 分 ， 
或 整个 设备 ， 或 由 多 个 设备 组 成 的 RAID 集 。 每 个 卷 可 以 作为 虚拟 磁盘 。 卷 还 可 以 存储 多 个 
操作 系统 ， 以 允许 引导 和 运行 多 个 操作 系统 。 

包含 文件 系统 的 每 个 卷 也 应 包含 有 关系 统 内 的 文件 信息 。 这 些 信息 保存 在 设备 目 
录 (device directory) 或 卷 目录 表 (volume table of content) 中 。 设 备 目录 (更 常 称 为 目录 
(directory)) 记录 卷 上 的 所 有 文件 的 信息 ， 如 名 称 、 位 置 、 大 小 和 类 型 等 。 图 10-7 显示 了 一 
个 典型 的 文件 系统 结构 。 


10.3.1 存储 结构 


正如 刚才 所 述 ， 通 用 计算 机 系统 有 多 个 存储 设备 ， 而 这 些 设备 可 以 分 成 保存 文件 系统 
的 卷 。 计 算 机 系统 可 能 没有 文件 系统 ， 也 可 能 有 多 个 文件 系统 ， 而 且 文 件 系统 的 类 型 可 以 不 
同 。 例如， 典型 的 Solaris 系统 可 能 有 十 几 种 不 同类 型 的 几 十 个 文件 系统 ， 如 图 10-8 所 示 的 
文件 系统 列表 。 


/ 
/devices 
/dev 
/system/contract 
proc 
/etc/mnttab 
/ete/svc/volatile 
/system/object 
/lib/libe.so.1 
/dev/fd 
Nig Be /var 
arad jw E ‘mp 
y /var/run 
i /opt 
ar /zpbge 
T E /zpbge/backup 
Be er roel /export/home 
eB, 国 件 ras /var/mail 
: /var/spool/mqueue 





zpbg 
aw /zpbg/zones 
图 10-7 典型 的 文件 系统 结构 图 10-8 Solari 文件 系统 


本 书 仅 仅 考 虑 通用 文件 系统 。 但 是 ， 值 得 注意 的 是 ， 还 有 许多 专用 的 文件 系统 。 下 面 简 
述 刚才 所 述 Solaris 示例 中 的 文件 系统 类 型 : 
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tmpfs :“ 临 时 ”文件 系统 。 它 是 在 易 失 性 内 存 中 创建 的 ， 当 系统 重启 或 崩溃 时 ， 它 
的 内 容 会 被 擦 除 。 
objfs :“ 虚 拟 ” 文 件 系 统 。 本 质 上 ， 这 是 一 个 内 核 接 口 , 但 看 起 来 像 一 个 文件 系统 ; 
它 让 调试 器 访问 内 核 符号 。 
ctfs : 维护 “合同 ”信息 的 虚拟 文件 系统 ， 以 管理 哪些 进程 在 系统 引导 时 启动 并 且 在 
运行 时 必须 继续 运行 。 
lofs:“ 环 回 ” 文 件 系统 ， 以 允许 一 个 文件 系统 代替 另 一 个 来 被 访问 。 
procfs: 虚拟 文件 系统 ， 将 所 有 进程 信息 作为 文件 系统 来 呈现 。 
ufs，zfs: 通用 文件 系统 。 

计算 机 的 文件 系统 可 以 极 大 。 甚 至 在 单个 文件 系统 之 中 ,将 文件 分 成 组 并 且 管 理 和 操作 
这 些 组 ， 是 很 有 用 的 。 这 种 组 织 涉及 使 用 目录 。 接 下 来 ， 探 讨 目录 结构 这 一 主题 。 


10.3.2 ”目录 概述 


目录 可 视 为 符号 表 ， 可 将 文件 名 称 转 成 目录 条 目 。 如 果 采 取 这 种 观点 ， 则 可 按 许多 方式 
来 组 织 目 录 。 这 种 组 织 允 许 我 们 插 人 条目、 删除 条 目 、 搜 索 命名 条 目 以 及 列 出 所 有 目录 条 目 
等 。 本 节 讨 论 用 于 定义 目录 系统 逻辑 结构 的 多 种 方案 。 

当 考 虑 特定 目录 结构 时 ， 不 能 忘记 可 对 目录 执行 的 操作 : 

o 搜索 文件 : 需要 能 够 搜索 目录 结构 ， 以 查找 特定 文件 的 条 目 。 由 于 文件 具有 符号 名 
称 ， 并 且 类 似 名 称 可 以 指示 文件 之 间 的 关系 ， 所 以 可 能 需要 查找 文件 名 称 匹配 特定 
模式 的 所 有 文件 。 

o 创建 文件 : 需要 创建 新 的 文件 ， 并 添加 到 目录 。 

e 删除 文件 : 当 不 再 需要 文件 时 ， 和 希望 能 够 从 目录 中 删除 它 。 

。 遍历 目录 : 需要 能 够 遍历 目录 内 的 文件 ， 及 其 目录 内 每 个 文件 的 目录 条 目的 内 容 。 

o 重 命名 文件 : 由 于 文件 名 称 可 向 用 户 指示 内 容 ， 因 此 当 文件 内 容 和 用 途 改变 时 ， 名 
称 也 应 改变 。 重 命名 文件 也 允许 改变 其 在 目录 结构 内 的 位 置 。 

。 遍历 文件 系统 : 可 能 希望 访问 每 个 目录 和 目录 结构 内 的 每 个 文件 。 为 了 可 靠 性 ， 
定期 备份 整个 文件 系统 的 内 容 和 结构 是 个 好 主意 。 这 种 备份 通常 将 所 有 文件 复制 
到 磁带 上 。 这 种 技术 提供 了 备份 副本 ， 以 防止 系统 出 错 。 此 外 ， 当 某 个 文件 不 再 
使 用 时 候 ， 它 可 被 复制 到 磁带 上 ， 它 原来 占用 的 磁盘 空间 可 以 释放 以 供 其 他 文件 
使 用 。 

下 面 讨论 定义 目录 逻辑 结构 的 最 常见 方案 。 


10.3.3 单 级 目录 


最 简单 的 目录 结构 是 单 级 目录 。 所 有 文件 都 包含 在 同一 目录 中 ， 这 很 容易 支持 和 理解 
(图 10-9 )。 
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然而 ， 当 文件 数量 增加 或 系统 有 多 个 用 户 时 ， 单 级 目录 有 重要 的 限制 。 因 为 所 有 文件 位 
于 同一 目录 中 ， 它 们 必须 具有 唯一 的 名 称 。 如 果 两 个 用 户 都 命名 数据 文件 为 test.txt， 则 违反 
唯一 名 称 规则 。 例 如 ， 在 一 个 编程 班级 中 ，23 个 学 生 将 第 2 次 作业 称 为 prog2.c， 而 另 11 位 
称 其 为 assign2.c。 幸 运 的 是 ， 大 多 数 文件 系统 支持 长 达 255 个 字符 的 文件 名 ， 因 此 选择 唯一 
的 文件 名 称 还 是 相对 容易 的 。 

随 着 文件 数量 的 增加 ， 即 使 单 级 目录 的 单个 用 户 也 会 难以 记 住所 有 文件 的 名 称 。 通 常 ， 
一 个 用 户 在 一 个 计算 机 系统 上 有 数 百 个 文件 ， 而 在 另外 一 个 系统 上 也 有 同样 数量 的 额外 文 
件 。 跟 踪 这 么 多 的 文件 是 个 艰巨 的 任务 。 


10.3.4 两 级 目录 


正如 已 经 看 到 的 ， 单 级 目录 常常 导致 混乱 的 文件 名 。 标 准 的 解决 方案 是 为 每 个 用 户 创建 
一 个 单独 的 目录 。 

对 于 两 级 目录 结构 ， 每 个 用 户 都 有 自己 的 用 户 文 件 目录 (User Fle Directory, UFD), 
这 些 UFD 具有 类 似 的 结构 ， 但 是 只 列 出 了 单个 用 户 的 文件 。 当 用 户 作 业 开 始 或 用 户 登 录 时 ， 
搜索 系统 的 主 文件 目录 (Master File Directory，MFD)。 通 过 用 户 名 或 账户 可 索引 MFD， 每 
个 条 目 指向 该 用 户 的 UFD (图 10-10 )。 





当 用 户 引 用 特定 文件 时 ， 只 搜索 他 自己 的 UFD。 因 此 ， 不 同 用户 可 能 拥有 相同 名 称 的 
文件 ， 只 要 每 个 UFD 中 的 所 有 文件 名 都 是 唯一 的 。 当 用 户 创 建文 件 时 ， 操 作 系 统 只 要 搜索 
该 用 户 的 UFD， 以 确定 是 否 存 在 同样 名 称 的 文件 。 当 删除 文件 时 ， 操 作 系 统 只 在 局 部 UFD 
中 进行 搜索 ; 因此 ， 它 不 会 意外 删除 另 一 个 用 户 的 具有 相同 名 称 的 文件 。 

用 户 目录 本 身 必 须根 据 需要 加 以 创建 和 删除 。 这 可 运行 一 个 特别 的 系统 程序 ， 再 加 上 适 
当 的 用 户 名 和 账户 信息 。 该 程序 创建 一 个 新 的 UFD， 并 在 MFD 中 为 其 增加 一 项 。 这 个 程序 
的 执行 可 能 仅 限于 系统 管理 员 。 用 户 目录 的 磁盘 空间 的 分 配 ， 可 以 采用 第 11 章 所 述 的 技术 
来 处 理 。 

虽然 两 级 目录 结构 解决 了 名 称 碰撞 问题 ,但 是 它 仍然 有 缺点 。 这 种 结构 有 效 地 将 一 个 用 
户 与 另 一 个 用 户 隔 离 。 当 用 户 需 要 完全 独立 时 ， 隔 离 是 个 优点 ; 然而 当 用 户 需 要 在 某 个 任务 
上 进行 合作 并 且 访 问 彼此 的 文件 时 ， 隔 离 却 是 个 缺点 。 有 的 系统 根本 不 允许 本 地 用 户 文件 被 
其 他 用 户 访问 。 

如 果 人 允许 访问 ， 则 一 个 用 户 必须 能 够 命名 另 一 个 用 户 的 目录 中 的 文件 。 为 了 唯一 命名 位 
于 两 级 目录 内 的 特定 文件 ,我们 必须 给 出 用 户 名 和 文件 名 。 两 级 目录 可 以 视 作 高 度 为 2 的 树 
或 倒置 树 。 树 根 是 MFD; 树 根 的 直接 后 代为 UFD; UFD 的 后 代为 文件 本 身 ， 文 件 为 树 的 叶 。 
旧 定 用 户 名 和 文件 名 ， 定 义 了 在 树 中 从 根 (MFD) 到 叶 (指定 的 文件 ) 的 路 径 。 因 此 ， 用 户 
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名 和 文件 名 定义 了 路 径 名 (path name)。 系 统 内 的 每 个 文件 都 有 一 个 路 径 名 。 为 了 唯一 地 命 
名 文件 ,用 户 必须 知道 所 需 文件 的 路 径 名 。 

例如 ， 如 果 用 户 A 需要 访问 他 自己 的 名 为 test.txt 的 测试 文件 ， 他 可 简单 地 采用 test. 
txt。 然 而 ， 为 了 访问 用 户 B (目录 条 目 名 为 userb) 的 名 为 test.txt 的 文件 ， 他 必须 采用 / 
userb/test.txt。 每 个 系统 都 有 特定 语法 ， 来 引用 不 属于 用 户 自己 目录 内 的 文件 。 

指定 文件 的 卷 需要 额外 的 语法 。 例 如 ，Windows 的 卷 表示 为 一 个 字母 后 跟 冒 号 。 因 此 ， 
文件 指定 可 能 是 C:\userb\test。 有 的 系统 做 得 还 要 细 ， 以 区 分 指定 的 卷 名 、 目 录 名 和 文件 名 。 
例如 ，VMS 的 文件 login.com 可 能 指定 为 : u:[sst.jdeck]jlogin.com;1， 其 中 届 u 是 卷 的 名 称 ， 
sst 是 目录 的 名 称 ，jdeck 是 子 目 录 的 名 称 , 1 是 版 本 号 。 其 他 系统 ， 例 如 UNIX 和 Linux， 
只 是 将 卷 名 称 作为 目录 名 称 的 一 部 分 。 名 字 开 头 给 出 的 是 卷 的 名 称 ， 番 下 的 是 目录 和 文件 的 
名 称 。 例 如 ，/u/pbg/test 可 能 表示 卷 u、 目 录 pbg 和 文件 testo 

这 种 情况 的 一 个 特例 是 关于 系统 文件 。 作 为 系统 一 部 分 的 程序 ， 如 加 载 器 、 汇 编 器 、 编 
译 器 、 工 具 程 序 、 库 等 通常 定义 为 文件 。 当 向 操作 系统 给 出 适当 的 命令 时 ， 这 些 文件 由 加 载 
器 读 人 ， 然 后 记 行 。 许 多 命令 解释 程序 只 是 将 这 样 的 命令 视 为 文件 的 名 称 ， 以 便 加 载 和 执 
行 。 如 果 目 录 系 统 按 以 上 来 定义 ， 则 在 当前 UFD 中 搜索 这 个 文件 名 称 。 一 种 解决 方案 是 将 
系统 文件 复制 到 每 个 UFD。 然 而 ， 复 制 所 有 系统 文件 会 浪费 大 量 的 空间 。( 如 果 系 统 文件 需 
要 SMB, BBA 12 个 用 户 需要 $ x 12 = 60MB ， 以 存储 系统 文件 的 副本 。) 

标准 解决 方案 是 稍稍 修改 搜索 步 又。 一 个 特殊 的 用 户 目 录 定 义 成 包含 系统 文件 (例如 ， 
用 户 0 )。 每 当 需 要 加 载 给 定名 称 的 文件 时 ， 操 作 系统 首先 搜索 本 地 UFD。 如 果 找 到 ， 则 使 
用 它 。 如 果 没 有 找到 ， 系 统 自动 搜索 包含 系统 文件 的 特殊 用 户 目录 。 用 于 搜索 给 定名 称 的 文 
件 所 用 的 目录 序列 称 为 搜索 路 径 (search path)。 对 于 给 定 的 命令 名 称 ， 搜 索 路 径 可 以 扩展 到 
包含 需要 搜索 的 无 限 的 目录 列表 。 这 种 方法 是 UNIX 和 Windows 最 为 常用 的 。 系 统 也 可 以 
设计 成 让 每 个 用 户 都 有 自己 的 搜索 路 径 。 


10.3.5 MER 


一 旦 明白 了 如 何 将 两 级 目录 视 为 两 级 的 树 ， 那么 自然 的 推广 就 是 将 目录 结构 扩展 到 任意 
高 度 的 树 (图 10-11 )。 这 种 推广 允许 用 户 创建 自己 的 子 目录 并 相应 地 组 织 文件 。 树 是 最 常见 
的 目录 结构 ， 有 一 个 根 目录 ， 系 统 内 的 每 个 文件 都 有 唯一 的 路 径 名 。 





So @ G 


图 10-11 树 形 目 录 结 构 
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目录 (RF AR) 包括 一 组 文件 或 子 目 录 。 目 录 只 不 过 是 一 个 文件 , 但 它 是 按 特殊 方式 
处 理 的 。 所 有 目录 具有 同样 的 内 部 格式 。 每 个 目录 条 目 都 有 一 位 来 将 条 目 定义 为 文件 (0 ) 
或 子 目 录 (1 )。 通 过 特殊 的 系统 调用 ， 可 创建 和 删除 目录 。 

在 常规 使 用 时 ， 每 个 进程 都 有 一 个 当前 目录 。 当 前 目录 (current directory) 包括 进程 当 
前 感 兴趣 的 大 多 数 文件 。 当 引用 一 个 文件 时 ， 就 搜索 当前 目录 。 如 果 所 需 文 件 不 在 当前 目录 
中 ,那么 用 户 通常 必须 指定 一 个 路 径 名 或 将 当前 目录 改变 为 包括 所 需 文 件 的 目录 。 为 了 改变 
目录 ， 用 户 可 使 用 系统 调用 以 重新 定义 当前 目录 ， 该 系统 调用 需要 有 一 个 目录 名 作为 参数 。 
因此 ， 每 当 需 要 时 ， 用 户 就 可 以 改变 当前 目录 。 从 一 个 系统 调用 change_directory() 到 下 一 
个 ， 所 有 open) 系统 调用 搜索 当前 目录 ， 以 查找 指定 文件 。 注 意 ， 搜 索 路 径 可 以 包含 或 不 
包含 代表 当前 目录 的 一 个 特殊 条 目 。 

当 用 户 进程 开始 时 或 用 户 登 录 时 ， 用 户 登 录 shell 的 初始 当前 目录 是 指定 的 。 操 作 系统 
搜索 账户 文件 (或 其 他 预先 定义 的 位 置 )， 以 得 到 该 用 户 的 相关 条 目 (以 便于 记 账 )。 账 户 文 
件 有 用 户 初始 目录 的 指针 (或 名 称 )。 该 指针 可 复制 到 此 用 户 的 局 部 变量 ， 以 指定 初始 当前 
目录 。 这 个 外 壳 可 以 产生 其 他 进程 。 任 何 子 进程 的 当前 目录 通常 是 生成 它 时 的 父 进程 的 当前 
目录 。 

路 径 名 可 有 两 种 形式 : 绝对 路 径 名 和 相对 路 径 名 。 绝 对 路 径 名 (absolute path name) 从 
根 开始 ， 遵 循 一 个 路 径 到 指定 文件 ， 并 给 出 路 径 上 的 目录 名 。 相 对 路 径 名 (relative path 
name) 从 当前 目录 开始 ， 定 义 一 个 路 径 。 例 如 ， 在 图 10-11 所 示 的 树 形 文件 系统 中 ， 如 果 当 
前 目录 是 root/spell/mail， 则 相对 路 径 名 为 prt/first 与 绝对 路 径 名 root/spell/mail/prt/first 指 问 
同一 文件 。 

允许 用 户 定义 自己 的 子 目 录 ， 可 以 使 他 按 一 定 结构 来 组 织 文 件 。 这 种 结构 可 能 导致 ， 不 
同 的 目录 关联 不 同 主题 的 文件 (例如 ,创建 一 个 子 目录 以 包括 本 书 的 内 容 ) 或 不 同形 式 的 信 
E (例如 ， 目 录 programs 可 以 包含 源 程序 ; 而 目录 bin 可 以 包含 所 有 二 进 制程 序 )。 

树 形 目录 的 一 个 有 趣 的 策略 决策 关注 如 何 处 理 删 除 目 录 。 如 果 目 录 为 空 ， 则 包含 它 的 目 
录 条 目 可 以 简单 删除 。 然 而 ， 如 果 要 删除 的 目录 不 为 空 ， 而 是 包括 多 个 文件 或 子 目录 ， 则 可 
有 两 种 选择 。 有 的 系统 不 能 删除 目录 ， 除 非 它 是 空 的 。 因 此 ， 要 删除 目录 ,用 户 必须 首先 删 
除 该 目录 内 的 所 有 文件 。 如 果 有 任何 子 目 录 存 在 ， 则 必须 对 它们 递归 应 用 此 过 程 ， 以 便 它们 
也 可 以 删除 。 这 种 方法 可 能 会 导致 大 量 的 工作 。 另 一 种 方法 ， 例 如 UNIX 的 命令 rm 所 采取 
的 操作 ， 提 供 一 个 选项 : 当 请 求 删 除 目 录 时 ， 所 有 目录 的 文件 和 子 目录 也 要 删除 。 任 何 一 种 
方法 都 很 容易 实现 ; 选择 是 个 策略 的 问题 。 后 一 种 策略 更 方便 ， 但 是 也 更 危险 ， 因 为 用 一 个 
命令 可 以 删除 整个 目录 结构 。 如 果 错 误 地 使 用 了 这 个 命令 ， 则 需要 从 备份 磁带 中 恢复 大 量 的 
文件 和 目录 (假设 存在 备份 )。 

采用 树 形 目录 系统 ， 用 户 除了 可 以 访问 自己 的 文件 外 ,还 可 以 访问 其 他 用 户 的 文件 。 例 
如 ,用 户 B 可 以 通过 指定 用 户 A 的 路 径 名 ,来 访问 用 户 A 的 文件 。 用 户 B 可 以 使 用 绝对 路 
径 名 或 相对 路 径 名 。 或 者 ， 用 户 B 可 以 将 其 当前 目录 改变 为 用 户 A 的 目录 ， 进 而 直接 采用 
文件 名 来 访问 文件 。 


10.3.6 无 环 图 目录 


考虑 两 个 程序 员 ， 正 在 开展 联合 项 目 。 与 该 项 目 相关 联 的 文件 可 以 保存 在 一 个 子 目 录 
中 ， 以 区 分 两 个 程序 员 的 其 他 项 目 和 文件 。 但 是 ， 两 个 程序 员 都 平等 地 负责 该 项 目 ， 都 希望 
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该 子 目录 在 自己 的 目录 内 。 在 这 种 情况 下 ， 公 共 子 目录 应 该 共享 (shared)。 一 个 共享 的 目录 
或 文件 可 同时 位 于 文件 系统 的 两 个 (或 多 个 ) 地 方 。 

树 结构 禁止 共享 文件 或 目录 。 无 环 图 (acyclic 
graph)， 即 没有 循环 的 图 ， 人 允许 目录 共享 子 目 录 和 
文件 (图 10-12 )。 同 一 文件 或 子 目 录 可 出 现在 两 个 
不 同 目 录 中 。 无 环 图 是 树 形 目录 方案 的 自然 扩展 。 

重要 的 是 注意 ， 一 个 共享 的 文件 或 目录 ) 不 
同 于 该 文件 的 两 个 副本 。 对 于 有 两 个 副本 ， 每 个 程 
序 员 可 以 查看 副本 而 不 是 原件 ， 但 如 果 有 一 个 程序 
员 更 改 了 文件 ， 则 更 改 将 不 会 出 现在 其 他 的 副本 
中 。 对 于 一 个 共享 文件 ， 只 存在 一 个 实际 的 文件 ， 
因此 一 个 用 户 所 做 的 任何 更 改 都 会 立即 为 其 他 用 户 vw WY 
所 看 到 。 共 享 对 于 子 目录 尤其 重要 ; 由 一 个 用 户 创 图 10-12 无 环 图 目录 结构 
建 的 新 文件 会 自动 地 出 现在 所 有 的 共享 子 目录 。 

当 人 们 作为 一 个 团队 来 工作 时 ， 他 们 想 要 共享 的 所 有 文件 可 以 放 到 一 个 目录 中 。 每 个 团 
队 成 员 的 UFD 可 以 将 共享 文件 的 这 个 目录 作为 子 目 录 。 即 使 在 单个 用 户 的 情况 下 ， 用 户 的 
文件 组 织 可 能 需要 将 一 些 文件 放置 在 不 同 的 子 目 录 中 。 例 如 ， 为 特定 项 目 编写 的 程序 应 该 不 
但 位 于 所 有 程序 的 目录 中 ， 而 且 位 于 该 项 目的 目录 中 。 

共享 文件 和 目录 的 实现 方法 可 以 有 多 个 。 一 种 常见 的 方式 ， 例 如 许多 UNIX 系统 所 采 
用 的 ， 是 创建 一 个 名 为 链接 的 新 目录 条 目 。 链 接 (link) 实际 上 是 男 一 文件 或 子 目录 的 指针 。 
例如 ， 链 接 可 以 用 绝对 路 径 或 相对 路 径 的 名 称 来 实现 。 当 引用 一 个 文件 时 ， 就 搜索 目录 。 如 
果 目 录 条 目标 记 为 链接 ， 则 真实 文件 的 名 称 包 括 在 链接 信息 中 。 通 过 采用 该 路 径 名 来 解决 
(resolve) 链接 ， 定 位 真实 文件 。 链 接 可 通过 目录 条 目 格式 《或 通过 特殊 类 型 ) 而 很 容易 加 以 
标识 ， 它 实际 上 是 具有 名 称 的 间接 指针 。 在 遍历 目录 树 时 ， 操 作 系统 忽略 这 些 链接 以 维护 系 
统 的 无 环 结构 。 

实现 共享 文件 的 另 一 个 常见 方法 是 在 两 个 共享 目录 中 复制 有 关 它 们 的 所 有 信息 。 因 此 ， 
两 个 条 目 相同 且 相 等 。 考 虑 一 下 这 种 方法 与 创建 链接 的 区 别 。 链 接 显然 不 同 于 原来 的 目录 条 
A; 因此 ， 两 者 不 相等 。 然 而 ， 复 制 目 录 条 目 使 得 原件 和 复印 件 难 以 区 分 。 复 制 目 录 条 目的 
一 个 主要 问题 是 ， 在 修改 文件 时 要 维护 一 致 性 。 

无 环 图 目录 的 结构 比 简单 的 树 结构 更 灵活 但 也 更 复杂 。 有 些 问 题 必须 仔细 考虑 。 文 件 现 
在 可 以 有 多 个 绝对 路 径 名 。 因 此 ， 不 同 的 文件 名 可 以 指 相同 的 文件 。 这 种 情况 类 似 编程 语言 
的 别名 问题 。 当 试图 遍历 整个 文件 系统 ， 如 查找 一 个 文件 、 统 计 所 有 文件 或 将 所 有 文件 复制 
到 备份 存储 等 ， 这 个 问题 变 得 重要 ， 因 为 我 们 不 想 不 止 一 次 地 遍历 共享 结构 。 

男 一 个 问题 涉及 删除 。 共 享 文 件 的 分 配 空间 何 时 可 以 被 释放 和 重用 ? 一 种 可 能 性 是 ， 只 
要 有 用 户 删除 它 时 ， 就 删除 它 ; 但 是 这 种 操作 可 能 留 下 其 挂 指针 ， 以 指向 现在 不 存在 的 文 
件 。 更 糟糕 的 是 ， 如 果 剩 余 文 件 指针 包含 实际 磁盘 地 址 ， 而 空间 随后 被 重用 于 其 他 文件 ， 这 
些 悬 挂 指针 可 能 指向 其 他 文件 的 中 间 。 

在 通过 符号 链接 实现 共享 的 系统 中 ,这 种 情况 较 易 处 理 。 删 除 链接 不 需要 影响 原始 文 
件 ; 而 只 有 和 链接 被 删除 。 如 果 文 件 条 目 本 身 被 删除 ， 文 件 的 空间 束 被 释放 ， 链 接 就 基 空 。 我 
们 可 以 搜索 这 些 链接 并 删除 它们 ,但 是 除非 每 个 文件 都 保持 一 个 关联 的 链接 列表 ， 否 则 这 种 
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搜索 可 能 是 昂贵 的 。 或者， 可 以 先 不 管 这 些 链 接 ， 直 到 尝试 使 用 它们 。 那 时 ， 可 以 确定 由 链 
接 给 出 名 称 的 文件 不 存在 ， 从 而 不 能 解析 链接 名 称 ; 访问 被 视 作 文件 名 称 是 非法 的 。( 在 这 
种 情况 下 ， 如 果 一 个 文件 被 删除 ， 并 且 在 它 的 符号 链接 被 引用 之 前 创建 另 一 个 同名 的 文件 ， 
则 系统 设计 者 应 该 仔细 考虑 做 什么 。) 对 于 UNIX， 当 文件 被 删除 时 ， 它 的 符号 链接 保留 ; 用 
户 需要 自己 意识 到 实现 原来 的 文件 已 删除 或 已 被 奉 换 。Microsoft Windows 使 用 同样 的 方法 。 

另 一 种 删除 方法 是 保留 文件 ， 直 到 它 的 所 有 引用 都 被 删除 。 为 了 实现 这 种 方法 ， 必 须 有 
一 种 机 制 来 确定 文件 的 最 后 一 个 引用 已 被 删除 。 为 每 个 文件 〈 目 录 条 目 或 符号 链接 )， 可 以 
保留 所 有 引用 的 一 个 列表 。 当 创建 目录 条 目的 链接 或 副本 时 ， 会 向 文件 引用 列表 添加 一 个 新 
的 条 目 。 当 删除 链接 或 目录 条 目 时 ， 会 从 列表 上 删除 它 的 条 目 。 当 文件 引用 列表 为 空 时 ， 会 
删除 这 个 文件 。 

这 种 方法 的 麻烦 是 可 变 的 、 可 能 很 大 的 文件 引用 列表 。 然 而 ， 实 际 上 并 不 需要 保留 整个 
文件 列表 ， 而 只 需要 保留 文件 的 引用 计数 。 添 加 新 的 链接 或 目录 条 目 增 加 引用 计数 。 删 除 链 
接 或 条 目 递减 计数 。 当 计数 为 0 时 ， 文 件 可 以 删除 ; 也 没有 其 他 的 引用 。UNIX 操作 系统 对 
非 符号 链接 (或 硬 链接 (hard link)) 采用 了 这 种 方法 ， 在 文件 信息 块 (或 inode ; 参见 A.7.2 
节 ) 中 有 引用 计数 。 通 过 禁止 对 目录 的 多 重 引用 ， 可 以 维护 无 环 图 结构 。 

为 了 避免 诸如 刚才 所 述 问 题 ， 有 些 系 统 简单 地 不 允许 共享 目录 或 链接 。 


10.3.7 通用 图 目录 


采用 无 环 图 结构 的 一 个 严重 问题 是 确保 没有 环 。 如 果 从 两 级 目录 开始 允许 用 户 创建 子 目 
录 ， 则 产生 了 树 形 目录 。 应 该 很 容易 看 到 ， 对 现 有 树 形 目录 简单 地 增加 新 文件 和 子 目录 保留 
树 形 性 质 。 然 而 ， 当 添加 链接 时 ， 会 破坏 树 结构 ， 从 而 形成 了 一 个 简单 的 图 结构 (图 10-13 )。 





图 10-13 通用 图 目录 


无 环 图 的 主要 优点 是 ， 有 相对 简单 的 算法 以 遍历 图 并 确定 何 时 没有 更 多 的 文件 引用 。 需 
要 避免 重复 遍历 无 环 图 的 共享 部 分 ， 主 要 出 于 性 能 原因 。 如 果 刚 刚 搜索 了 一 个 主要 的 共享 子 目 
录 以 查找 特定 文件 ， 但 是 没有 找到 它 ， 则 需要 避免 再 次 搜索 该 子 目录 ; 再 次 搜索 会 浪费 时 间 。 

如 果 人 允许 目录 中 有 环 ， 则 无 论 从 正确 性 或 性 能 角度 而 言 ， 同 样 需要 避免 多 次 搜索 同一 部 
分 。 设 计 不 当 的 算法 可 能 会 无 穷 搜索 环 而 从 不 终止 。 一 种 解决 方案 是 可 以 限制 在 搜索 时 访问 
目录 的 数量 。 

当 试图 确定 什么 时 候 可 删除 某 个 文件 时 ， 类 似 问题 也 存在 。 对 于 无 环 图 目录 结构 ， 引 
用 计数 为 0 意味 着 没有 文件 或 目录 的 引用 ， 可 以 删除 该 文件 。 然 而 ， 当 存在 环 时 ， 即 使 不 再 





可 能 引用 一 个 目录 或 文件 时 ， 引 用 计数 也 可 能 不 为 0。 这 种 异常 源 自 目录 中 可 能 存在 自我 引 
用 的 缘故 。 在 这 种 情况 下 ， 通 常 需要 使 用 垃圾 收集 (garbage collection) 方案 ， 以 确定 何 时 
最 后 引用 已 被 删除 并 重新 分 配 磁盘 空间 。 垃 圾 收集 涉及 遍历 整个 文件 系统 ， 并 标记 所 有 可 访 
问 的 。 接 着 ,第 二 次 遍历 收集 所 有 未 标记 的 到 空闲 空间 列表 。( 类 似 的 标记 程序 可 用 于 确保 ， 
需 一 次 且 只 一 次 就 可 遍历 或 搜索 文件 系统 的 一 切 ,) 然而 ， 用 于 磁盘 文件 系统 的 垃圾 收集 是 
极为 费时 的 ， 因 此 很 少 使 用 。 

垃圾 收集 是 必需 的 ， 这 仅 是 因为 图 中 可 能 存在 环 。 因 此 ， 无 环 图 结构 更 加 容易 使 用 。 问 
题 是 ， 在 创建 新 链接 时 如 何 避 免 环 。 如 何 知道 新 链接 何 时 形成 环 呢 ? 有 算法 可 检测 图 中 的 
环 ; 然而 ， 这 些 算 法 极为 费时 ， 尤 其 当 图 位 于 磁盘 上 时 。 对 于 处 理 目 录 和 链接 的 特殊 情况 ， 
一 个 简单 算法 是 在 遍历 目录 时 避 开 链接 。 这 样 ， 既 避免 了 环 ， 又 没有 其 他 开销 。 


10.4 文件 系统 安装 


正如 文件 在 使 用 前 必须 要 打开 一 样 ， 文 件 系统 在 用 于 系统 的 进程 之 前 必须 先 安装 
(mount)。 更 具体 地 说 ， 目 录 结 构 可 以 构建 在 多 个 卷 上 ， 这 些 卷 必须 先 安 装 才能 使 其 可 用 于 
文件 系统 名 称 空间 。 

安装 过 程 很 简单 。 操 作 系 统 需 要 知道 设备 的 名 称 和 安装 点 (mount point) (附加 文件 系统 
在 原来 文件 结构 中 的 位 置 )。 有 的 操作 系统 要 求 提供 文件 系统 类 型 ， 而 其 他 检查 设备 结构 并 
确定 文件 系统 的 类 型 。 通 常 ， 安 装点 是 空 目 录 。 例 如， 在 UNIX 系统 上 ， 包 含 用 户主 目录 的 
文件 系统 可 能 安装 到 /home ; 然后 ， 当 访问 该 文件 系统 的 目录 结构 时 ， 只 要 在 目录 名 称 之 前 
加 上 /home， 如 /home/jane。 当 该 文件 系统 安装 在 /users 下 时 ， 通 过 路 径 名 /users/jane 可 以 
使 用 同一 个 目录 。 

接 下 来 ， 操 作 系 统 验证 设备 包含 一 个 有 效 的 文件 系统 。 验 证 可 这 样 进行 : 通过 设备 驱动 
程序 读 入 设备 目录 ， 并 验证 目录 具有 预期 格式 。 最 后 ， 操 作 系 统 在 其 目录 结构 中 记录 如 下 信 
息 : 一 个 文件 系统 已 安装 在 给 定安 装点 上 。 这 种 方案 允许 操作 系统 遍历 目录 结构 ; 根据 情况 ， 
可 在 不 同文 件 系统 之 间 ， 甚 至 可 在 不 同文 件 系统 类 型 之 间 ， 进 行 切换 。 

为 了 说 明文 件 系统 的 安装 ， 考 虑 如 图 10-14 所 示 的 文件 系统 ， 其 中 三 角形 表示 所 感 兴 
趣 的 目录 子 树 。 图 10-14a 显示 了 一 个 现 有 文件 系统 ， 而 图 10-14b 显示 了 一 个 未 安装 的 位 于 
/device/dsk 上 的 文件 系统 。 这 时 ， 只 有 现 有 文件 系统 上 的 文件 可 被 访问 。 图 10-15 显示 了 将 
/device/dsk 上 的 卷 安装 到 /users 后 的 文件 系统 的 效果 。 如 果 该 卷 被 种 载 ， 则 文件 系统 将 还 原 
到 如 图 10-14 所 示 的 情况 。 


users 
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图 10-14 文件 系统 图 10-15 ”安装 点 
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系统 通过 语义 可 以 清楚 地 表达 功能 。 例 如 ， 系 统 可 能 不 允许 在 包含 文件 的 目录 上 进行 
安装 ; 或 者 可 以 使 安装 的 文件 系统 在 该 目录 处 可 用 ， 并 隐藏 目录 的 原 有 文件 ;直到 文件 系统 
被 卸载 ， 进 而 终止 使 用 文件 系统 ， 并 且 允 许 访问 该 目录 中 的 原 有 文件 。 男 一 个 例子 是 ， 有 的 
系统 可 允许 将 同一 文件 系统 多 次 重复 安装 到 不 同 的 安装 点 ,或 者 允许 将 一 个 文件 系统 只 安装 
一 次 。 

考虑 Mac OS X 操作 系统 的 操作 。 当 系统 第 一 次 碰 到 磁盘 时 (引导 时 或 系统 运行 时 )， 
Mac OS X 操作 系统 搜索 设备 上 的 文件 系统 。 如 果 找 到 ， 它 会 自动 将 找到 的 文件 系统 安装 在 
目录 /Volumes 下 ， 并 添加 一 个 标 有 文件 系统 名 称 的 文件 夹 图 标 (如 存储 在 设备 目录 中 )。 然 
后 ， 用 户 能 够 单 击 该 图 标 ， 以 显示 新 安装 的 文件 系统 。 

Microsoft Windows 系列 的 操作 系统 维护 一 个 扩展 的 两 级 目录 结构 ， 用 驱动 器 字母 表示 
设备 和 卷 。 卷 具有 常规 图 结构 的 目录 ， 并 与 驱动 器 号 相关 联 。 特 定 文件 的 路 径 形式 为 driver- 
letter:\path\to\file。 最 新 版 本 的 Windows 允许 文件 系统 安装 在 目录 树 的 任意 位 置 ， 就 像 UNIX 
一 样 。 在 启动 时 ，Windows 操作 系统 自动 发 现 所 有 设备 ， 并 安装 所 有 找到 的 文件 系统 。 有 的 
系统 ， 如 UNIX， 安 装 命令 是 显 式 的 。 系 统 配置 文件 包括 设备 和 安装 点 的 列表 ， 以 便 在 启动 
时 自动 安装 ， 也 可 手动 进行 其 他 安装 。 

有 关 文件 系 统 安装 问题 将 在 11.2.2 WA A.7.5 节 中 进一步 讨论 。 


10.5 文件 共享 


前 面 的 章节 讨论 了 文件 共享 的 动机 及 用 户 共享 文件 有 关 的 一 些 困难 。 当 用 户 想 要 合作 和 
减少 完成 计算 目标 的 工作 时 ， 这 样 的 文件 共享 是 非常 理想 的 。 因 此 ， 尽 管 具有 内 在 困难 ， 面 
向 用 户 的 操作 系统 必须 满足 共享 文件 的 需要 。 

本 节 将 分 析 文件 共享 的 其 他 方面 。 首 先 ， 讨 论 因 多 用 户 共享 文件 而 出 现 的 普通 问题 。 一 
且 人 允许 多 个 用 户 共享 文件 ， 下 一 个 挑战 就 是 将 共享 扩展 到 多 个 文件 系统 ， 如 远程 文件 系统 ; 
也 要 讨论 这 个 挑战 。 最 后 ， 对 于 共享 文件 的 冲突 操作 ， 考 虑 如 何 处 理 。 例 如 ， 如 果 多 个 用 户 
正在 写 人 同一 文件 ， 则 应 该 允许 所 有 的 写 人 ， 或 者 操作 系统 应 该 保护 用 户 彼此 的 操作 ? 


10.5.1 多 用 户 


当 操 作 系 统 支持 多 个 用 户 时 ， 文 件 共 享 、 文 件 命名 和 文件 保护 等 问题 就 尤其 突出 了 。 对 
于 允许 用 户 共 享 文件 的 目录 结构 ， 系 统 必须 调控 文件 共享 。 系 统 可 以 缺 省 允许 一 个 用 户 访问 
其 他 用 户 的 文件 ， 也 可 要 求 一 个 用 户 明确 授予 文件 访问 的 权限 。 这 些 是 访问 控制 和 保护 的 问 
题 ， 将 在 10.6 节 中 讨论 。 

为 了 实现 共享 与 保护 ， 多 用 户 系 统 必 须要 比 单 用 户 系 统 维护 更 多 的 文件 和 目录 属性 。 
虽然 有 许多 方案 可 以 满足 这 个 要 求 ， 但 是 现在 大 多 数 系统 都 采用 了 文件 (或 目录 ) 所 有 者 
(owner) (或 用 户 (user)) 和 组 (group) 的 概念 。 所 有 者 是 这 样 的 用 户 ， 他 可 以 更 改 属性 和 授 
予 访问 权限 ， 拥 有 最 高 控制 。 组 属性 定义 用 户 子 集 ， 他 们 拥有 相同 的 访问 权限 。 例 如 ， 对 于 
UNIX 系统 ,文件 的 所 有 者 可 以 对 其 文件 执行 所 有 操作 ， 文 件 组 的 成 员 只 能 执行 这 些 操 作 的 
子 集 ， 而 所 有 其 他 用 户 可 能 只 能 执行 另 一 操作 子 集 。 组 的 成 员 和 其 他 用 户 可 以 对 文件 进行 哪 
些 具体 操作 ， 可 由 文件 所 有 者 来 定义 。 有 关 更 多 权限 属性 的 细节 参见 下 一 节 。 

给 定 文件 (或 目录 ) 的 所 有 者 和 组 ID ， 与 其 他 文件 属性 一 起 存储 。 当 用 户 请 求 操作 文 
件 时 ， 用 户 ID 可 以 与 所 有 者 属性 进行 比较 ， 以 便 确定 该 请 求 用 户 是 否 是 文件 所 有 者 。 同 样 ， 
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可 以 比较 组 一 。 绪 果 表 明 哪 些 权 限 适用 。 然 后 ， 系 统 根据 这 些 权 限 来 检查 请 求 操作 ， 以 决 
定 是 允许 还 是 拒绝 它 。 

许多 系统 具有 多 个 本 地 文件 系统 ， 包 括 单个 磁盘 的 卷 或 多 个 链接 磁盘 的 多 个 卷 。 在 这 种 
情况 下 ， 一 旦 文件 系统 安装 ，ID 检查 和 权限 匹配 就 简单 了 。 


10.5.2 ”远程 文件 系统 


随 着 网 络 的 出 现 ， 远 程 计 算 机 之 间 的 通信 成 为 可 能 。 网 络 允 许 在 校园 或 全 球 范围 内 进行 
资源 共享 。 一 个 重要 的 共享 资源 是 文件 形式 的 数据 。 

随 着 网 络 和 文件 技术 的 发 展 ， 远 程 文件 共享 方法 也 已 改变 。 第 一 种 实现 方法 是 ， 通 过 如 
ftp 程序 在 机 器 之 间 手 动 传送 文件 。 第 二 种 主要 方法 是 ， 通 过 分 布 式 文件 系统 (Distributed 
File System，DFS)， 远 程 目录 从 本 机 上 可 直接 访问 。 第 三 种 方法 是 ， 万 维 网 ( World Wide 
Web, WWW), 在 某 些 方面 回 到 了 第 一 种 。 通 过 浏览 器 才能 访问 远程 文件 ， 每 次 文件 传输 需 
要 一 个 单独 操作 (基本 上 是 fip 的 封装 )。 云 计算 (1.11.7 节 ) 也 越 来 越 多 地 用 于 文件 共享 。 

ftp 用 于 匿名 和 认证 的 访问 。 匿 名 访问 (anonymous access) 人 允许 用 户 在 没有 远程 系统 
账户 的 情况 下 传输 文件 。WWW 几乎 完全 采用 匿名 的 文件 交换 。DFS 在 访问 远程 文件 的 机 
器 和 提供 文件 的 机 器 之 间 提 供 了 更 加 紧密 的 集成 。 这 种 集成 增加 了 复杂 性 ， 这 将 在 本 节 加 以 
讨论 。 
10.5.2.1 客户 机 - 服务 器 模型 

远程 文件 系统 允许 一 台 计算 机 安装 一 台 或 多 台 远 程 机 器 上 的 一 个 或 多 个 文件 系统 。 在 这 
种 情况 下 ， 包 含 文件 的 机 器 是 服务 器 ( server)， 需 要 访问 文件 的 机 器 是 客户 机 (client)。 对 
于 联网 的 机 器 ， 客 户 机 - 服务 器 关系 很 常见 。 一 般 来 说 ， 服 务 器 声明 可 用 于 客户 机 的 资源 ， 
并 具体 指定 哪些 资源 (在 这 里 ， 哪 些 文件 ) 和 哪些 客户 机 。 一 台 服 务 器 可 以 服务 多 台 客 户 机 ， 
而 一 台 客 户 机 可 使 用 多 台 服 务 器 ， 具 体 取决 于 给 定 客户 机 - 服务 器 的 实现 细节 。 

服务 器 通常 根据 卷 或 目录 的 级 别 来 指定 哪些 文件 可 用 。 识 别 客户 更 加 困难 。 指 定 客户 可 
以 采用 网 络 名 称 或 其 他 标识 符 ， 例 如 IP 地 址 ， 但 是 这 些 可 以 被 欺骗 (spoofed) 或 模仿 。 通 
过 欺骗 ， 未 经 授权 的 客户 机 可 以 允许 访问 服务 器。 更 加 安全 的 解决 方案 包括 通过 加 密 密 钥 来 
安全 认证 客户 端 。 不 过 ， 安 全 也 带 来 了 很 多 挑战 ， 包 括 确保 客户 机 和 服务 器 的 兼容 性 〈 它 们 
必须 使 用 同样 的 加 密 算 法 ) 和 密 钥 交换 的 安全 性 (被 拦截 的 密 钥 可 以 再 次 允许 未 经 授权 的 访 
问 )。 由 于 解决 这 些 问题 的 困难 ， 非 安全 的 认证 方法 是 最 常用 的 。 

对 于 UNIX 及 其 网 络 文件 系统 (NFS)， 认 证 缺 省 通过 客户 网 络 信息 来 进行 。 对 于 这 种 
方案 ， 客 户 端 和 服务 器 的 用 户 ID 必须 匹配 。 如 果 不 匹 配 ， 则 服务 器 将 无 法 确定 对 文件 的 访 
问 权 限 。 考 虑 这 样 一 个 例子 ， 用 户 ID 在 客户 机 上 为 1000， 而 在 服务 器 上 为 2000。 针 对 服 
务 器 特定 文件 的 客户 机 请 求 不 会 得 到 适当 处 理 ， 这 是 因为 服务 器 会 认为 是 用 户 ID 为 1000 而 
不 是 真实 的 2000 需要 访问 文件 。 因 此 ， 基 于 不 正确 的 认证 信息 ， 访 问 会 被 允许 或 拒绝 。 服 
务 器 必须 相信 客户 机 提供 正确 的 用 户 ID。 注 意 ，NFS 协议 支持 多 对 多 关系 。 即 多 个 服务 器 
可 为 多 个 客户 机 提供 文件 。 事 实 上 ， 给 定 的 机 器 可 以 是 一 些 NFS 客户 机 的 服务 器 ， 也 可 以 
是 其 他 NFS 服务 器 的 客户 机 。 

一 且 安 装 了 远程 文件 系统 ， 用 户 的 文件 操作 请 求 通过 网 络 按照 DFS 协议 发 送 到 服务 器 。 
通常 ， 一 个 文件 打开 请 求 与 其 请 求 用 户 的 ID 会 一 起 发 送 。 然 后 ， 服 务 器 采用 标准 的 访问 检 
查 ， 确 定 用 户 是 否 具 有 凭据 以 按 请 求 模式 来 访问 文件 。 请 求 可 能 被 允许 或 拒绝 。 如 果 人 允许 ， 
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则 文件 句柄 会 返回 到 客户 机 的 应 用 程序 ， 然 后 应 用 程序 就 可 以 对 文件 执行 读 、 写 和 其 他 操 
作 。 当 访问 完成 时 ， 客 户 机 关闭 文件 。 操 作 系 统 可 采用 与 本 地 文件 系统 安装 类 似 的 语义 ,也 
可 采用 不 同 的 语义 。 

10.5.22 ”分布 式 信息 系统 

为 了 更 易 管理 客户 机 一 服务 嚣 系统， 分布 式 信息 系统 (distributed information system) 
也 称 为 分 布 式 命名 服务 (distributed naming service)， 对 远程 计算 所 需 信息 提供 统一 访问 。 域 
名 系统 (Domain Name System, DNS) 为 整个 互联 网 提供 主机 名 到 网 络 地 址 (host-to-name- 
to-network address) 的 转换 。 在 DNS 流行 之 前 ， 包 含 同样 信息 的 文件 通过 email 或 ftp 在 网 
络 机 器 之 间 发 送 。 显 然 ， 这 种 方法 不 好 扩展 ! 

其 他 分 布 式 信息 系统 为 分 布 式 应 用 提供 了 用 户 名 称 /密码 /用 户 ID/ 组 ID 空间 。UNIX 
系统 采用 了 各 种 各 样 的 分 布 式 信息 方法 。Sun Microsystems (现在 是 Oracle 公司 的 一 部 分 ) 
引入 了 黄页 (yellow page) (后 来 改名 为 网 络 信息 服务 (Network Information Service，NIS ) )， 
并 且 业 界 大 多 数 都 采用 了 它 。 它 集中 存储 用 户 名 、 主 机 名 、 打 印 机 信息 等 。 但 它 使 用 的 是 非 
安全 的 认证 方法 ， 包 括 发 送 未 加 密 的 用 户 密码 (以 明文 形式 ) 和 通过 IP 地 址 标识 主机 。Sun 
的 NIS+ 是 更 为 安全 的 NIS 升级 ， 但 是 也 更 为 复杂 ， 且 并 未 得 到 广泛 使 用 。 

对 于 Microsoft 的 通用 互联 网 文档 系统 (Common Internet File System，CIFS)， 网 络 信 
息 与 用 户 认证 信息 (用 户 名 和 密码 ) 一 起 进行 网 络 登录 ， 以 便服 务 器 确定 是 否 允 许 或 拒绝 对 
所 请 求 文件 系统 的 访问 。 为 了 使 得 认证 有 效 ， 用 户 名 必须 在 机 器 之 间 匹 配 (如 同 NFS 一 样 )。 
Microsoft 使 用 活动 目录 (active directory) 作为 分 布 式 命名 结构 ， 以 便 为 用 户 提供 单一 的 名 
称 空间 。 一 旦 建立 ,分布 式 命名 功能 可 供 客户 机 和 服务 器 用 于 认证 用 户 。 

业界 正在 采用 轻 量 级 目录 访问 协议 ( Lightweight Directory Access Protocol, LDAP) 作 
为 安全 的 分 布 式 命名 机 制 。 事实 上 ,活动 目录 是 基于 LDAP 的 。Oracle Solaris 和 大 多 数 其 
他 主要 操作 系统 包括 LDAP， 并 且 人 允许 它 用 于 用 户 认 证 以 及 系统 范围 的 信息 获取 ， 例 如 打印 
机 的 可 用 性 。 可 以 想象 ， 一 个 分 布 式 LDAP 目录 可 用 于 存储 一 个 企业 的 所 有 计算 机 的 所 有 
用 户 和 资源 信息 。 这 种 结果 是 用 户 的 安全 单 点 登录 (secure single sign-on): 用 户 只 需 输入 认 
证 信息 一 次 ， 就 可 访问 企业 的 所 有 计算 机 。 通 过 将 分 布 于 每 个 系统 上 的 各 种 文件 信息 和 不 同 
分 布 信息 服务 集中 起 来 ， 也 减轻 了 系统 管理 的 工作 负担 。 
10.5.2.3 ”故障 模式 

本 地 文件 系统 的 故障 原因 可 能 很 多 ， 如 包含 文件 系统 的 磁盘 故障 、 目 录 结 构 或 其 他 磁盘 
管理 信息 (总 称 为 元 数据 ( metadata) ) 的 损坏 、 磁 盘 控制 器 的 故障 、 电 线 故 障 和 主机 适配器 
故障 等 。 用 户 或 系统 管理 员 的 错误 也 可 能 导致 文件 的 丢失 或 整个 目录 或 卷 的 删除 。 许 多 这 些 
故障 会 导致 主机 骨 溃 ， 显 示 错 误 原 因 ; 修复 损害 需要 人 工 干 预 。 

远程 文件 系统 的 故障 模式 甚至 更 多 。 由 于 网 络 系统 的 复杂 性 和 远程 机 器 之 间 的 所 需 交 
互 ， 更 多 的 问题 可 能 会 干扰 远程 文件 系统 的 正确 操作 。 在 网 络 情况 下 ， 两 主机 之 间 的 网 络 可 
能 会 中 断 。 这 种 中 断 可 能 由 于 硬件 故障 、 硬 件 配置 从 妥 或 网 络 实现 问题 等 。 虽 然 有 些 网 络 具 
有 内 置 的 容错 ， 包 括 在 主机 之 间 有 多 个 路 径 ， 但 是 很 多 没有 。 任 何 单个 故障 都 可 以 中 断 DFS 
命令 流 。 

考虑 一 个 客户 机 正在 使 用 远程 文件 系统 。 它 打开 了 远程 主机 的 文件 ; 除了 许多 其 他 动 
作 ， 它 可 能 执行 目录 查找 以 打开 文件 、 读 写 文件 数据 和 关闭 文件 。 现 在 ， 假 设 网 络 断 开 、 服 
务 器 故障 ， 甚 至 服务 器 的 计划 关机 等 。 罕 然 ， 远 程 文件 系统 不 再 可 用 。 这 种 情况 相当 普遍 ， 
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所 以 客户 系统 不 应 将 其 按 本 地 文件 系统 的 丢失 一 样 来 处 理 。 相 反 ， 系 统 可 以 终止 对 丢失 服务 
器 的 所 有 操作 ， 或 延迟 操作 ， 直 到 服务 器 再 次 可 用 为 止 。 这 种 故障 语义 作为 远程 文件 系统 协 
议 的 一 部 分 来 定义 和 实现 。 所 有 操作 的 终止 可 以 导致 用 户 失去 数据 和 耐心 。 因 此 ， 大 多 数 
DFS 协议 强制 或 允许 延迟 操作 远程 主机 的 文件 系统 ， 以 寄 希 望 于 远程 主机 会 再 次 可 用 。 

为 了 实现 这 种 故障 恢复 ， 可 能 要 在 客户 机 和 服务 器 上 维护 一 定 的 状态 信息 (state 
information)。 如 果 服 务 器 和 客户 机 都 拥有 当前 活动 和 打开 文件 的 知识 ， 则 他 们 可 以 无 颖 地 
进行 故障 恢复 。 当 服务 器 衣 江 但 必须 认识 到 它 有 被 远程 安装 的 已 导出 的 文件 系统 和 已 打开 的 
文件 时 ，NFS 采取 了 一 种 简单 方法 ， 即 实现 无 状态 (stateless) 的 DFS。 简 单 地 说 ， 它 假设 : 
除非 已 经 远程 安装 了 文件 系统 ， 且 以 前 已 打开 了 文件 ， 否 则 有 关 文 件 读 写 的 客户 请 求 将 不 会 
发 生 。NFS 协议 携带 所 有 需要 的 信息 ， 以 便 定位 适当 文件 并 执行 请 求 操 作 。 同 样 ， 它 并 不 跟 
踪 哪 个 客户 安装 了 导出 卷 ， 而 是 再 次 假设 : 如 果 来 了 请 求 ， 则 它 必 须 合法 。 虽 然 这 种 无 状态 
方法 使 NFS 具有 弹性 并 容易 实现 ， 但 是 它 并 不 安全 。 例 如 ，NFS 服务 器 可 能 允许 伪造 的 读 
或 写 请求 。 行 业 标准 的 NFS 版 本 4 解决 了 这 些 问 题 ， 这 里 的 NFS 是 有 状态 的 ， 以 提高 安全 
性 、 性 能 和 功能 。 


10.5.3 一致 性 语义 


一 致 性 语义 (consistency semantic) 是 个 重要 准则 ， 用 于 评估 支持 文件 共享 的 文件 系统 。 
这 些 语义 规定 系统 的 多 个 用 户 如 何 访问 共享 文件 。 特 别 地 ， 它 们 规定 了 一 个 用 户 的 数据 修改 
何 时 为 男 一 用 户 可 见 。 这 些 语义 通常 由 文件 系统 代码 来 实现 的 。 

一 致 性 语义 与 第 6 章 的 进程 同步 算法 直接 相关 。 然 而 ， 由 于 磁盘 和 网 络 的 巨大 延迟 和 很 
慢 的 传输 速率 ， 第 6 章 的 复杂 算法 往往 并 不 适合 文件 VO 操作 。 例 如 ， 对 远程 磁盘 执行 一 个 
原子 事务 可 能 涉及 多 次 网 络 通信 、 多 次 磁盘 读 写 ,或 两 者 。 尝 试 这 样 一 套 完 整 功能 的 系统 常 
常 性 能 欠 佳 。 成 功 实 现 了 复杂 共享 语义 的 一 个 文件 系统 是 Andrew 文件 系统 (AFS)。 

在 下 面 的 讨论 中 ,假设 用 户 尝 试 的 一 系列 文件 访问 ( 即 读 取 和 写 入 ) 总 是 包含 在 操作 
open() 和 close() 之 间 。 在 操作 open() 和 close() 之 间 的 一 系列 访问 称 为 文件 会 话 (file 
session)。 为 了 说 明 语义 概念 ， 下 面 简 要 介绍 几 个 典型 的 一 致 性 语义 示例 。 
10.5.3.1 UNIX 语义 

UNIX 文件 系统 使 用 以 下 一 致 性 语义 : 

e 一 个 用 户 对 已 打开 文件 的 写 和 信 ， 对 于 打开 同一 文件 的 其 他 用 户 立即 可 见 。 

e 一 种 共享 模式 允许 用 户 共享 文件 的 当前 位 置 指针 。 因 此 ， 一 个 用 户 前 移 指针 就 会 影 

响 所 有 共享 用 户 。 这 里 ， 一 个 文件 具有 单个 图 像 ， 人 允许 来 自 不 同 用 户 的 交替 访问 。 
采用 UNIX 语义 ， 一 个 文件 与 单个 物理 图 像 相 关联 ， 可 作为 独占 资源 访问 。 争 用 这 种 单个 图 
像 导致 用 户 进 程 的 延迟 。 
10.5.3.2 ”会话 语义 

Andrew 文件 系统 (Open AFS) 采用 以 下 一 致 性 语义 ， 

e 一 个 用 户 对 已 打开 文件 的 写 入 ， 对 于 打开 同一 文件 的 其 他 用 户 ， 不 是 立即 可 见 。 

e 一 旦 文件 关闭 ， 对 其 所 做 的 更 改 只 能 被 后 来 打开 的 会 话 可 见 。 已 打开 的 文件 实例 并 

不 反映 这 些 变 化 。 
根据 这 类 语义 ,一 个 文件 在 同一 时 间 可 以 临时 关联 多 个 (可 能 不 同 的 ) 图 像 。 因 此 ， 人 允许 多 
个 用 户 同 时 对 它们 的 文件 图 像 执 行 读 写 访问 ， 没 有 延迟 。 调 度 访 问 几乎 没有 强制 约束 。 
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10.5.3.3 不 可 变 共 享 文件 语义 

一 个 独特 的 方法 是 不 可 变 共享 文件 (immnutable shared file) 的 语义 。 一旦 一 个 文件 由 创 
建 者 声明 为 共享 ， 它 就 不 能 被 修改 。 一 个 不 可 变 文件 有 两 个 关键 属性 : 它 的 名 称 不 可 以 重 
用 ， 而 且 它 的 内 容 不 可 以 改变 。 因 此 ， 不 可 变 文件 的 名 称 意 味 着 文件 的 内 容 是 固定 的 。 在 分 
布 式 系统 中 实现 这 些 语义 较为 简单 ， 因 为 共享 是 有 纪律 的 (只 读 )。 


10.6 保护 


当 信息 存储 在 计算 机 系统 中 时 ,需要 保护 它 的 安全 ， 以 便 避 免 物理 损坏 (可靠 性 的 问 
题 ) 和 非法 访问 (保护 问题 )。 

可 靠 性 通常 通过 文件 的 重复 副本 来 提供 。 许 多 计算 机 都 有 系统 程序 ， 自 动 地 (或 通过 
计算 机 操作 员 干 预 ) 定期 地 (每 天 或 周 或 月 ) 把 可 能 意外 损坏 的 文件 系统 复制 到 磁带 。 文 件 
系统 的 损坏 可 能 由 于 硬件 问题 (如 读 取 或 写 人 的 错误 )、 电 源 浪 涌 或 故障 、 磁 头 碰撞 、 灰 尘 、 
温度 不 当 和 故意 破坏 等 。 文 件 可 能 会 被 偶然 删除 。 文 件 系统 软件 的 错误 也 可 能 导致 文件 内 容 
丢失 。 第 12 章 将 更 加 详细 地 讨论 可 靠 性 。 

保护 可 以 具有 多 种 方法 。 对 于 单 用 户 笔记 本 系统 ， 可 以 通过 将 计算 机 锁 在 桌子 抽 屋 或 文 
件 柜 里 来 提供 保护 。 然 而 ， 对 于 更 大 的 多 用 户 系统 ， 需 要 其 他 机 制 。 


10.6.1 访问 类 型 


需要 保护 文件 是 能 够 访问 文件 的 直接 结果 。 不 允许 访问 其 他 用 户 文件 的 系统 不 需要 保 
护 。 因 此 ， 通 过 禁止 访问 可 以 提供 完全 保护 。 或 者 ， 通 过 不 加 保护 可 以 提供 自由 访问 。 这 两 
种 方法 太极 端 ， 不 适宜 于 普通 用 途 。 需 要 的 是 受 控 访问 。 

通过 限制 可 以 进行 的 文件 访问 类 型 ， 保 护 机 制 提供 受 控 访 问 。 访 问 的 允许 或 拒绝 取决 于 
多 个 因素 ， 其 中 之 一 是 请 求 访问 的 类 型 。 可 以 控制 多 个 不 同 的 操作 类 型 ; 

o ik: 从 文件 中 读 取 。 

。 5: 写 或 重 写 文件 。 
执行 : 加 载 文件 到 内 存 并 执行 它 。 
附加 : 在 文件 末尾 写 入 新 的 信息 。 
删除 : 删除 文件 ， 并 释放 空间 以 便 重复 使 用 。 

o 列表 : 列 出 文件 的 名 称 和 属性 。 

其 他 操作 ， 如 文件 的 重 命名 、 复 制 、 编 辑 ， 也 可 以 控制 。 然 而 ， 对 于 许多 系统 ， 通 过 利 
用 更 低级 系统 调用 的 系统 程序 ， 可 以 实现 这 些 更 高 级 功能 。 仅 在 更 低级 别提 供 保护 。 例 如 ， 
复制 文件 可 以 通过 一 系列 读 请 求 来 简单 实现 。 在 这 种 情况 下 ， 具 有 读 访问 权限 的 用 户 也 可 以 
对 文件 进行 复制 、 打 印 等 。 

保护 机 制 有 许多 。 每 种 机 制 都 有 优点 和 缺点 ， 且 必须 适合 它 的 预期 应 用 。 例 如 ， 小 型 计 
算 机 系统 (只 为 少数 几 个 研究 成 员 使 用 )， 与 大 型 企业 计算 机 (用 于 研究 、 财 务 和 人 事 等 ) 相 
比 , 不 需要 提供 同样 的 保护 类 型 。 下 面 几 小 节 会 讨论 一 些 保 护 方法 ， 而 第 14 章 将 进行 更 为 
全 面 的 讨论 。 


10.6.2 访问 控制 
保护 问题 的 最 常见 方法 是 ， 根 据 用 户 身 份 控制 访问 。 不 同 用 户 可 以 需要 不 同类 型 的 文件 
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或 目录 访问 。 基 于 身份 访问 的 最 为 普通 的 实现 方法 是 ， 为 每 个 文件 和 目录 关联 一 个 访问 控制 

列表 ( Access-Control List，ACL)， 以 指定 每 个 用 户 的 名 称 及 其 允许 的 访问 类 型 。 当 用 户 请 

求 访问 特定 文件 时 ， 操 作 系 统 将 检查 与 该 文件 关联 的 访问 列表 。 如 果 该 用 户 属于 可 访问 的 ， 
486) 则 人 允许 访问 。 和 否则 ,会 发 生 保护 冲突 ， 并 且 用 户 作 业 被 拒绝 访问 该 文件 。 

这 种 方法 的 优点 能 够 进行 复杂 的 访问 方法 。 访 问 列表 的 主要 问题 是 它们 的 长 度 。 如 果 允 
许 每 个 用 户 都 能 读 取 一 个 文件 ， 则 必须 列 出 所 有 具有 读 取 访问 权限 的 用 户 。 这 种 技术 有 两 个 
不 可 取 的 后 果 : 

e 构造 这 样 的 列表 可 能 是 一 个 宛 长 乏味 的 任务 ， 尤 其 是 在 事先 不 知道 系统 的 用 户 列 

表 时 。 
e 目录 条 目 ， 以 前 是 固定 大 小 的 ， 现 在 必须 是 可 变 大 小 的 ， 从 而 导致 更 为 复杂 的 空间 
管理 。 
通过 采用 精简 的 访问 列表 ， 可 以 解决 这 些 问题 。 

为 了 精简 访问 列表 ， 许 多 系统 为 每 个 文件 采用 了 三 种 用 户 类 型 : 

e 所 有 者 : 创建 文件 的 用 户 为 所 有 者 。 

e 组 : 共享 文件 并 且 需 要 类 似 访问 的 一 组 用 户 是 组 或 工作 组 (work group). 

e 其 他 : 系统 内 的 所 有 其 他 用 户 。 

现在 ， 最 为 常用 的 方法 是 ， 将 访问 控制 列表 与 更 为 普通 的 (和 更 容易 实现 的 ) 所 有 者 、 
组 和 其 他 的 访问 控制 方案 (刚才 讨论 的 ) 一 起 组 合 使 用 。 例 如 ，Solaris 缺 省 使 用 三 种 类 型 的 
访问 ; 但 是 ， 当 需要 更 细 粒 度 的 访问 控制 时 ， 可 以 允许 为 特定 的 文件 和 目录 添加 访问 控制 
列表 。 

为 了 说 明 ， 考 虑 一 个 用 户 Sara。 她 在 写 一 本 书 ， 并 雇 了 三 个 研究 生 (Jim, Dawn Fil Jill) 
来 帮忙 。 该 书 的 文本 保存 在 名 为 book.tex 的 文件 中 。 这 个 文件 的 关联 保护 如 下 : 

e Sara 应 该 能 够 调用 这 个 文件 的 所 有 操作 。 

e Jim, Dawn il Jill 应 该 只 能 读 和 写 这 个 文件 ; 他 们 不 应 该 允许 删除 它 。 

e 所 有 其 他 用 户 应 该 能 够 读 取 但 不 能 写 入 这 个 文件 。( Sara 有 兴趣 让 尽 可 能 多 的 人 员 阅 

读 文件 ， 以 便 可 以 获得 反馈 )。 

为 了 实现 这 样 的 保护 ， 我 们 必须 创建 一 个 新 的 组 ， 如 text， 它 的 成 员 为 Jim、Dawn 
和 Jil。 组 名 text 必须 与 文件 book.tex 相关 联 ， 并 且 必 须根 据 前 面 所 述 策略 来 设 定 访问 
权限 。 

现在 ,假定 有 一 个 访问 者 ，Sara 希望 允许 其 暂时 访问 第 1 章 。 该 访问 者 不 能 增加 到 组 
text 中 ， 因 为 这 样 会 允许 他 访问 所 有 章节 。 因 为 一 个 文件 只 能 在 一 个 组 中 ，Sara 不 能 为 第 1 
章 另 增加 一 个 组 。 然 而 ， 由 于 访问 控制 列表 功能 的 增加 ， 访 问 者 可 以 增加 到 第 1 章 的 访问 控 

制 列表 。 


UNIX 系统 的 权限 

对 于 UNIX 系统 ， 目 录 保 护 和 文件 保护 的 处 理 类 似 。 每 个 子 目 录 都 关联 三 个 域 : 所 
有 者 、 组 和 其 他 ， 每 个 域 都 有 三 个 位 rwx。 因 此 ， 如 果 一 个 子 目 录 的 相应 域 的 z 位 已 设 
置 ， 则 用 户 可 列 出 内 容 。 类 似 地 ， 如 果 一 个 子 目 录 (foo) 的 相应 域 的 x 位 已 设置 ， 则 用 
户 可 将 当前 目录 改 为 该 目录 (foo), 

以 下 为 UNIX 环境 下 的 一 个 目录 列表 的 样 例 : 
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-fwW-rwW-r-- 1 pbg staff 31200 Sep 3 08:30 intro.ps 
drwx----- 5 pbg staff 512 Jul809.33 private/ 
drwxrwxr-x 2pbg staff 512 Jul8 09:35 doc/ 
drwxrwx--- 2jwg student 512 Aug3 14:13 student-proj/ 
-fw-r--[-- 1pbg staff 9423 Feb 24 2012 program.c 
-[WXI-XI-X 1 pbg staff 20471 Feb 24 2012 program 
drwx--x--x 4tag faculty 512 Jul31 10:31 lib/ 
drwx------ 3pbg staff 1024 Aug 29 06:52 mail/ 
drwxrwxrwx 3pbg staff 512 Jul809:35 test/ 


第 一 个 域 表 示 文 件 或 目录 的 权限 。 第 一 个 字母 a 表示 子 目 录 。 还 显示 了 文件 链接 数 、 所 
有 者 名 称 、 组 名 称 、 文 件 的 字 节 数 、 上 次 修改 时 间 和 文件 名 称 (具有 可 选 扩 展 部 分 )。 


为 了 使 得 这 种 方案 工作 正常 ， 必 须 严格 控制 许可 和 访问 的 列表 。 这 种 控制 的 实现 具有 多 
种 方式 。 例 如 ， 对 于 UNIX 系统 ， 只 有 管理 员 或 超级 用 户 可 以 创建 和 修改 组 。14.5.2 WHE 
深入 地 讨论 访问 列表 。 

对 于 更 为 有 限 的 保护 分 类 ， 只 需要 三 个 域 就 可 定义 保护 。 通 常 ， 每 个 域 为 一 组 位 ， 其 中 
每 位 允许 和 拒绝 相关 的 访问 。 例 如 ，UNIX 系统 定义 了 三 个 域 ， 每 个 域 为 三 个 位 : rwx， 其 
中 z 控制 读 访问 ，v 控制 写 访问 ,而 x 控制 执行 。 文 件 的 所 有 者 、 文 件 的 组 以 及 所 有 其 他 用 
户 各 有 一 个 单独 的 域 。 采 用 这 种 方法 ， 每 个 文件 需要 9 位 来 记录 保护 信息 。 因 此 ， 对 上 面 的 
例子 ，book.tex 的 保护 域 为 如 下 : 对 于 所 有 者 Sara， 所 有 三 个 位 都 设置 ; 对 于 组 text, xv 和 
w 位 设置 ;而 对 于 其 他 用 户 ， 只 有 位 设置 了 。 

组 合 方法 的 困难 之 一 是 用 户 接口 。 用 户 必须 能 够 区 分 一 个 文件 是 否 有 可 选 的 ACL 许可 。 
在 Solaris 例子 中 ， 普 通 许可 之 后 的 “+” 表 示 有 可 选 的 ACL 许可 。 如 : 


19 -rw-r--r--+ 1 jim staff 130 May 25 22:13 filei 


一 组 独立 命令 setfacl (set file acl) 和 getfacl (get 
file acl) 用 来 管理 ACL。 

Windows 用 户 通常 通过 GUI 管理 访问 控制 列表 。 
10-16 显示 了 Windows 7 NTFS 文件 系统 上 的 文件 
权限 窗口 。 在 此 示例 中 ， 用 户 “ guest” 被 特定 地 拒 
绝 访问 文件 ListPanel.java。 

男 一 个 困难 是 ， 当 权限 和 ACL 冲突 时 哪个 优先 。 
例如 ， 如 果 Joe 在 一 个 文件 的 组 中 ， 该 组 具有 读 权 
限 ， 但 是 该 文件 有 一 个 ACL 允许 Joe 读 和 写 ， 那 么 
Joe 能 写 吗 ? Solaris 允许 ACL 优先 (因为 它们 更 为 
细 粒 度 并 且 未 默认 分 配 )。 这 遵循 一 般 规 则 : 特殊 性 
应 该 优先 。 


10.6.3 ”其 他 保护 方式 


保护 问题 的 另 一 种 解决 方案 是 ， 为 每 个 文件 加 
上 一 个 密码 。 正 如 计算 机 系统 的 访问 通常 通过 密码 ”图 10-16 Windows 7 访问 控制 列表 管理 [489 
控制 一 样 ， 每 个 文件 的 访问 也 可 按 同样 方式 来 控制 。 
如 果 密 码 可 以 随机 选择 并 且 经 常 修改 ， 则 这 种 方案 可 以 有 效用 于 限制 文件 访问 。 然 而 ,使 
用 密码 具有 一 些 缺 点 。 第 一 ， 用 户 需 要 记 住 的 密码 数量 可 能 太 多 ， 导 致 这 种 方案 不 切实 际 。 
第 二 ， 如 果 所 有 文件 只 使 用 一 个 密码 ， 则 一 旦 发 现 ， 所 有 文件 就 可 被 访问 ; 保护 是 基于 全 


Object name: HADATA\Pateme Material\Sic\ListPanel java 
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部 或 全 不 。 有 些 系统 允许 用 户 将 密码 与 子 目录 (而 不 是 单个 文件 ) 相关 联 ， 以 便 解决 这 个 
问题 。 

对 于 多 级 目录 结构 ， 不 仅 需 要 保护 单个 文件 ， 而 且 需 要 保护 子 目 录 的 文件 集合 ; 也 就 
是 说 ， 需 要 提供 目录 保护 的 一 种 机 制 。 必 须 保 护 的 目录 操作 有 些 不 同 于 文件 操作 。 需 要 控制 
在 目录 中 创建 和 删除 文件 。 此 外 ， 可 能 需要 控制 一 个 用 户 能 和 否 确 定 在 某 个 目录 中 存在 某 个 文 
件 。 有 时 ， 有 关 文件 的 存在 和 名 称 的 知识 本 身 就 很 重要 。 因 此 ， 列 出 目录 内 容 必须 是 一 个 保 
护 的 操作 。 类 似 地 ， 如 果 一 个 路 径 名 指向 目录 中 的 文件 ， 则 用 户 必须 允许 访问 它 的 目录 和 文 
件 。 对 于 支持 一 个 文件 可 有 多 个 路 径 名 的 系统 (采用 无 环 图 和 一 般 图 )， 根 据 所 用 路 径 名 的 
不 同 ， 对 同一 个 文件 ， 一 个 用 户 可 能 具有 不 同 的 访问 权限 。 


10.7 ”小结 


文件 是 由 操作 系统 定义 和 实现 的 抽象 数据 类 型 。 它 是 逻辑 记录 的 一 个 序列 ;而 逻辑 记录 
可 以 是 字 节 、 行 ( 定 长 的 或 变 长 的 ) 或 更 为 复杂 的 数据 项 。 操 作 系 统 可 以 专门 支持 各 种 记录 
类 型 ， 或 者 让 应 用 程序 提供 支持 。 

操作 系统 的 主要 任务 是 将 逻辑 文件 概念 映射 到 物理 存储 设备 ， 如 磁盘 或 磁带 。 由 于 设备 
的 物理 记录 大 小 可 能 与 逻辑 记录 大 小 不 一 样 ， 所 以 可 能 有 必要 将 多 个 逻辑 记录 合并 ， 以 便 存 
入 物理 记录 。 同 样 ， 这 个 任务 可 以 由 操作 系统 来 完成 或 由 应 用 程序 来 提供 。 

文件 系统 的 每 个 设备 都 有 内 容 的 卷 表 或 设备 的 目录 ， 以 列 出 设备 上 文件 的 位 置 。 另 外 ， 
创建 目录 允许 组 织 文件 。 多 用 户 系统 的 单 级 目录 导致 命名 问题 ， 因 为 每 个 文件 必须 具有 唯一 
的 文件 名 称 。 两 级 目录 ， 通 过 为 每 个 用 户 创建 单独 的 目录 以 包含 文件 ,来 解决 这 个 问题 。 目 
录 通 过 名 称 列 出 文件 ， 并 包括 文件 的 磁盘 位 置 、 长 度 、 类 型 、 所 有 者 、 创 建 时 间 、 上 次 使 用 
时 间 等 。 

两 级 目录 的 自然 扩展 是 树 形 目 录 。 树 形 目录 允许 用 户 创建 子 目录 ， 来 组 织 文件 。 无 环 图 
目录 允许 共享 子 目 录 和 文件 ， 但 是 使 得 搜索 和 删除 更 为 复杂 。 一 般 图 结构 允许 在 共享 文件 和 
目录 时 完全 的 灵活 性 ， 但 是 有 时 需要 采用 垃圾 收集 以 恢复 未 使 用 的 磁盘 空间 。 

磁盘 分 为 一 个 或 多 个 卷 ， 每 个 卷 可 以 包括 一 个 文件 系统 或 留 作 “原始 ” 。 文 件 系统 可 以 
安装 到 系统 的 命名 结构 ， 使 其 可 用 。 命 名 方案 因 操作 系统 而 异 。 一 旦 安装 ， 卷 内 的 文件 就 可 
使 用 。 文 件 系统 可 以 印 载 ， 以 不 允许 访问 或 用 于 维护 。 

文件 共享 取决 于 系统 提供 的 语义 。 文 件 可 有 多 个 读者 、 多 个 写 者 或 有 限 共 享 。 分 布 式 文 
件 系统 允许 客户 机 安装 源 自 服务 器 的 卷 或 目录 ， 只 要 能 从 网 络 访问 就 行 。 远 程 文件 系统 在 可 
靠 性 、 性 能 和 安全 方面 有 些 挑战 。 分 布 式 信息 系统 维护 有 用户、 主机、 访问 信息 ， 这 样 客户 机 
和 服务 器 共享 状态 信息 以 便 管 理 使 用 和 访问 。 

因为 文件 是 大 多 数 计算 机 的 信息 存储 的 主要 机 制 ， 所 以 需要 文件 保护 。 文 件 访问 可 以 按 
每 种 类 型 的 访问 ， 如 读 、 写 、 执 行 、 添 加 、 删 除 、 列 表 等 ， 分 别 加 以 控制 。 文 件 保护 可 以 由 
访问 列表 、 密 码 或 其 他 技术 来 提供 。 


习题 


10.1 考虑 这 样 一 个 文件 系统 : 当 一 个 文件 链接 仍然 存在 时 ， 能 够 删除 这 个 文件 并 回收 其 磁盘 空间 。 如 
果 新 创建 的 文件 处 在 同一 个 存储 区 域 或 具有 同样 的 绝对 路 径 名 称 ， 则 会 出 现 什 么 问题 ”如 何 才能 
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避免 这 些 问 题 ? 

10.2 打开 文件 列表 用 于 维护 当前 打开 文件 的 信息 。 操 作 系 统 应 为 每 个 用 户 维护 一 个 单独 列表 ， 还 是 
仅仅 一 个 列表 ， 以 便 包括 所 有 用 户 当前 正在 访问 文件 的 引用 ? 如 果 同 一 文件 由 两 个 不 同 的 程序 
或 用 户 所 访问 ， 打 开 文件 列表 应 该 有 两 个 单独 的 条 目 么 ?请 解释 。 

10.3 提供 强制 锁 而 不 是 建议 锁 (其 使 用 取决 于 用 户 ) 有 何 优点 和 缺点 ? 

10.4 提供 通常 根据 以 下 方法 访问 文件 的 应 用 程序 示例 : 

a. 顺序 
b. 随机 

10.5 有 些 系统 当 首 次 引用 文件 时 自动 打开 它 ， 并 在 任务 结束 时 关闭 它 。 这 种 方案 与 传统 的 由 用 户 明 确 
打开 和 关闭 文件 的 方案 相 比 ， 有 什么 优点 和 缺点 ? 

10.6 如 果 操 作 系 统 知 道 某 个 应 用 按 顺 序 访 问 文件 数据 ， 则 如 何 利用 这 个 信息 来 提高 性 能 ? 

10.7 举 一 个 可 以 从 支持 随机 访问 索引 文件 的 操作 系统 中 受益 的 应 用 示例 。 

10.8 针对 支持 跨 安装 点 的 文件 链接 ( 即 文件 链接 指向 不 同 卷 内 的 文件 )， 讨 论 其 优 缺 点 。 

10.9 有 些 系统 通过 保留 文件 的 一 个 副本 来 提供 文件 共享 ; 而 其 他 系统 则 保留 多 个 副本 ， 以 便 共享 该 文 
件 的 每 个 用 户 都 有 一 个 。 论 述 每 种 方法 的 相对 优点 。 

10.10 ”针对 远程 文件 系统 (保留 在 文件 服务 器 上 ) 的 一 组 故障 语义 不 同 于 本 地 文件 系统 的 情况 ， 讨 论 

其 优 缺点 。 
10.11 对 存储 在 远程 文件 系统 上 的 文件 的 共享 访问 ， 支 持 UNIX 语义 的 一 致 性 意味 着 什么 ? 


推荐 读物 


Silberschatz 等 (2010 ) 全 面 讨论 了 数据 库 系统 及 其 文件 结构 。 

MULTICS 系统 最 早 实现 了 多 级 目录 结构 ( Organick ( 1972 ) ) 。 如 今 ， 大 多 数 操作 系统 实现 多 级 
目录 结构 ， 包 括 Linux(Love( 2010 )),Mac OS X (Singh ( 2007 ))、Solaris (McDougall 和 Mauro( 2007 ) ) 
与 所 有 版 本 的 Windows (Russinovich 和 Solomon ( 2005 ) ) 。 

NFS (Network File System， 网 络 文件 系统 ) 由 Sun Microsystems 设计 ， 人 允许 目录 结构 分 布 在 联网 
的 计算 机 系统 上 。NFS V4 在 RFC3505 (http://www.ietf.org/rfc/rfc3530.txt) 中 描述 。 有 关 Solaris 文件 
系统 的 一 般 讨 论 ， 请 参见 Sun 的 《 System Administration Guide: Devices and File Systems 》(http://docs. 
sun.com/app/docs/doc/817_5093 )。 

DNS 首先 由 Su (1982) 提出 ， 并 经 历 了 多 次 修订 。LDAP， 也 称 为 X.509， 是 源 自 X.500 分 布 式 
目录 协议 的 一 个 派生 子 集 。 它 由 Yeong 等 (1995) 定义 ， 并 已 在 许多 操作 系统 上 实现 。 
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正如 第 10 章 所 述 ， 文 件 系统 提供 了 机 制 ， 以 在 线 存 储 和 访问 文件 内 容 ， 包 括 数据 和 程 
序 。 文 件 系 统 永 久 驻 留 在 外 存 上 ， 而 外 存 设计 成 永久 容纳 大 量 数据 。 本 章 主 要 关注 在 大 多 数 
常用 外 存 即 磁盘 上 的 文件 存储 与 访问 的 问题 。 我 们 讨论 各 种 方法 ， 用 于 组 织 文件 使 用 、 分 配 
磁盘 空间 、 恢 复 空闲 空间 、 跟 踪 数 据 位置 以 及 操作 系统 其 他 部 分 与 外 存 的 接口 等 。 本 章 也 将 
讨论 性 能 问题 。 

本 章 目 标 

© 描述 本 地 文件 系统 和 目录 结构 的 实现 细节 。 

© 描述 远程 文件 系统 的 实现 。 

© 讨论 块 分 配 和 空闲 块 的 算法 和 权衡 。 


11.1 文件 系统 结构 


磁盘 提供 大 多 数 的 外 存 ， 以 便 维护 文件 系统 。 为 了 实现 这 个 目的 ， 磁盘 具 有 两 个 优势 : 

e MAW hE S ; 可 以 从 磁盘 上 读 取 一 块 ， 修 改 该 块 ， 并 写 回 到 原来 的 位 置 。 

e 磁盘 可 以 直接 访问 它 包 含 信 息 的 任何 块 。 因 此 ， 可 以 简单 按 顺 序 或 随机 地 访问 文件 ; 

并 且 从 一 个 文件 切换 到 另 一 个 文件 只 需 移动 读 写 磁 头 ， 并 且 等 待 磁盘 旋转 。 

第 12 章 详细 讨论 磁盘 结构 。 

为 了 提高 VO 效率 ， 内 存 和 磁盘 之 间 的 IO 传输 以 块 (block) 为 单位 执行 。 每 个 块 具有 
一 个 或 多 个 扇 区 。 根 据 磁 盘 驱 动 器 的 不 同 ， 扇 区 大 小 从 32 字 节 到 4096 字 节 不 等 ， 通 常 为 
512 字 节 。 

文件 系统 (file system) 提供 高 效 和 便捷 的 磁盘 访问 ， 以 便 允 许 轻松 存储 、 定 位 、 提 取 
数据 。 文 件 系 统 有 两 个 截然 不 同 的 设计 问题 。 第 一 个 问题 是 ， 如 何 定义 文件 系统 的 用 户 接 
口 。 这 个 任务 涉及 定义 文件 及 其 属性 、 所 允许 的 文件 操作 、 组 


织 文件 的 目录 结构 。 第 二 个 问题 是 ， 创 建 算法 和 数据 结构 ， 以 应 用 程序 
便 映射 九 辑 文件 系统 到 物理 外 存 设备 。 
文件 系统 本 身 通常 由 许多 不 同 的 层 组 成 。 图 11-1 所 示 的 逻辑 文件 系统 
结构 是 一 个 分 层 设 计 的 例子 。 每 层 设计 利用 更 低层 的 功能 ， 创 
建新 的 功能 ， 以 用 于 更 高 层 服务 。 文件 组 织 模块 
VO 控制 (1/O control) 层 包括 设备 驱动 程序 和 中 断 处 理 程 
序 ， 以 在 主 内 存 和 磁盘 系统 之 间 传 输 信 息 。 设 备 驱动 程序 可 以 作 基本 文件 系统 
为 翻译 器 。 它 的 输入 为 高 级 命令 ， 如 “检索 块 123”。 它 的 输出 
由 底层 的 、 硬 件 特定 的 指令 组 成 ， 硬 件 控制 器 利用 这 些 指令 来 使 VO 控制 
VO 设备 与 系统 其 他 部 分 相连 。 设 备 驱动 程序 通常 在 1/O 控制 器 
的 特定 位 置 写 入 特定 位 格式 ， 告 诉 控制 器 对 设备 的 什么 位 置 采 取 设备 


什么 动作 。 第 13 章 更 详细 地 讨论 设备 驱动 程序 和 IO 基础 架构 。 图 11-1 分 层 设计 的 文件 系统 
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基本 文件 系统 ( basic file system) 只 需 向 适当 设备 驱动 程序 发 送 通用 命令 ， 以 读 取 和 写 
入 磁盘 的 物理 块 。 每 个 物理 块 由 磁盘 的 数字 地 址 来 标识 〈 例 如 ， 驱 动 器 (device) 1、 柱 面 
(cylinder) 73、 磁 道 (track) 3, X (sector) 10 )。 该 层 也 管理 内 存 缓冲 区 和 保存 各 种 文件 
系统 、 目 录 和 数据 块 的 缓存 。 在 进行 磁盘 块 传输 之 前 ， 分 配 一 块 缓冲 区 。 当 缓冲 区 已 满 时 ， 
缓冲 管理 器 必须 找到 更 多 缓冲 内 存 或 释放 缓冲 空间 ， 以 便 允 许 完 成 LO 请 求 。 缓 存 用 于 保存 
常用 的 文件 系统 元 数据 ， 以 提高 性 能 ; 因此 管理 它们 的 内 容 对 于 系统 性 能 优化 至 关 重 要 。 

文件 组 织 模块 (file-organization module) 知道 文件 及 其 逻辑 块 以 及 物理 块 。 由 于 知道 所 
用 的 文件 分 配 类 型 和 文件 位 置 ， 文 件 组 织 模块 可 以 将 逻辑 块 地址 转 成 物理 块 地 址 ， 以 供 基 本 
文件 系统 传输 。 每 个 文件 的 逻辑 块 从 0 (或 1) 到 NN 编号 ; 而 包含 数据 的 物理 块 并 不 与 逻辑 
号 匹配 ， 因 此 需要 通过 转换 来 定位 块 。 文 件 组 织 模块 还 包括 可 用 空间 管理 器 ， 以 跟踪 未 分 配 
的 块 并 根据 要 求 提 供给 文件 组 织 模块 。 

Hon, WRI RZ (logical file system) 管理 元 数据 信息 。 元 数据 包括 文件 系统 的 
所 有 结构 ， 而 不 包括 实际 数据 (或 文件 内 容 )。 逻 辑 文件 系统 管理 目录 结构 ， 以 便 根 据 给 定 
文件 名 称 为 文件 组 织 模块 提供 所 需 信息 。 它 通过 文件 控制 块 来 维护 文件 结构 。 文 件 控制 块 
( File Control Block, FCB) 包含 有 关 文 件 的 信息 ， 包 括 所 有 者 、 权 限 、 文 件 内 容 的 位 置 等 。 
逻辑 文件 系统 也 负责 保护 ， 如 第 10 章 和 第 14 章 所 述 。 

当 采 用 分 层 结构 实现 文件 系统 时 ， 可 最 小 化 代码 的 重复 。LIO 控制 的 代码 ， 有 时 还 包括 
基本 文件 系统 的 代码 ， 可 以 用 于 多 个 文件 系统 。 每 个 文件 系统 可 以 拥有 自己 的 逻辑 文件 系统 
和 文件 组 织 模块 。 遗 憾 的 是 ， 分 层 可 能 增加 了 操作 系统 开销 ， 导 致 性 能 降低 。 使 用 分 层 ,， 包 
括 采 用 多 少 层 和 每 层 做 什么 等 的 决定 ， 是 设计 新 系统 的 主要 挑战 之 一 。 

现在 使 用 的 文件 系统 有 很 多 ， 大 多 数 操作 系统 支持 多 个 。 例 如 ， 大 多 数 CD-ROM 都 是 
按 ISO 9660 格式 来 写 的 ， 这 种 格式 是 CD-ROM 制造 商 遵循 的 标准 格式 。 除 了 可 移动 媒介 
的 文件 系统 外 ， 每 个 操作 系统 还 有 一 个 或 多 个 基于 磁盘 的 文件 系统 。UNIX 使 用 UNIX 文 
件 系统 ( UNIX File System，UFS)， 它 是 基于 Berkeley 的 快速 文件 系统 (Fast File System, 
FFS), Windows 支持 磁盘 的 文件 系统 格式 ， 如 FEAT、FAT32 和 NTFS ( Windows NT File 
System)， 以 及 CDROM All DVD 的 文件 系统 格式 。 虽 然 Linux 支持 40 多 种 不 同 的 文件 系 
统 ，Linux 的 标准 文件 系统 是 可 扩展 文件 系统 (extended file system)， 最 常见 的 版 本 是 ext3 
和 ext4。 还 有 分 布 式 文件 系统 ， 即 服务 需 的 文件 系统 可 路过 网 络 由 若干 客户 机 来 安装 。 

文件 系统 的 研究 仍然 是 操作 系统 设计 与 实现 的 一 个 活跃 领域 。Google 创建 了 自己 的 文 
件 系 统 ， 以 满足 公司 具体 的 存储 和 检索 需求 ， 包 括 来 自 许 多 客户 的 对 大 量 磁盘 的 高 性 能 访 
问 。 男 一 个 有 趣 的 项 目 是 FUSE 文件 系统 ， 通 过 在 用 户 级 (而 不 是 内 核 级 ) 实现 和 执行 文件 
系统 ， 为 文件 系统 的 开发 和 使 用 ， 它 提供 了 灵活 性 。 采 用 FUSE， 用户 可 以 为 多 种 操作 系统 
添加 一 个 新 的 文件 系统 ， 并 可 用 其 来 管理 自己 的 文件 。 


11.2 文件 系统 实现 


正如 10.1.2 节 所 述 ， 操 作 系 统 实现 了 系统 调用 open() 和 close()， 以 便 进程 可 以 请 求 
访问 文件 内 容 。 本 节 深 入 分 析 用 于 实现 文件 系统 操作 的 结构 和 操作 。 


11.2.1 概述 
文件 系统 的 实现 需要 采用 多 个 磁盘 和 内 存 的 结构 。 虽 然 这 些 结构 因 操 作 系 统 和 文件 系统 
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而 异 ， 但 是 还 是 有 一 些 通 用 原则 的 。 
在 磁盘 上 ， 文 件 系 统 可 能 包括 如 下 信息 : 如 何 启动 存储 在 那里 的 操作 系统 、 总 的 块 数 、 
空闲 块 的 数量 和 位 置 、 目 录 结 构 以 及 各 个 具体 文件 等 。 上 述 的 许多 结构 会 在 本 章 余下 的 部 分 
中 详细 讨论 。 这 里 简 述 如 下 : 
e (每 个 卷 的 ) 引导 控制 块 (boot control block) 可 以 包含 从 该 卷 引导 操作 系统 的 所 需 信 
息 。 如 果 磁 盘 不 包含 操作 系统 ， 则 这 块 的 内 容 为 空 。 它 通常 为 卷 的 第 一 块 。UFS 称 
之 为 引导 块 (boot block); NTFS 称 之 为 分 区 引导 扇 区 (partition boot sector). 

© (每 个 卷 的 ) 42 HR (volume control block) 包括 卷 (或 分 区 ) 的 详细 信息 ， 如 分 
区 的 块 的 数量 、 块 的 大 小 、 空 闲 块 的 数量 和 指针 、 空 闲 的 FCB 数量 和 FCB 指针 等 。 
UFS 称 之 为 超级 块 (superblock)， 而 在 NTFS 中 它 存储 在 主 控 文 件 表 (master file 
table) 中 。 

e (每 个 文件 系统 的 ) 目录 结构 用 于 组 织 文 件 。 在 UFS 中 ， 它 包含 文件 名 和 相关 的 

inode 的 号 码 ; 在 NTFS 中 ， 它 存储 在 主 控 文 件 表 中 。 

e 每 个 文件 的 FCB 包括 该 文件 的 许多 详细 信息 。 它 有 一 个 唯一 的 标识 号 ， 以 便 与 目录 

条 目 相 关联 。 在 NTFS 中 ， 这 些 信 息 实 际 上 存储 在 主 控 文 件 表 中 ， 它 使 用 关系 数据 
库 结构 ， 每 个 文件 占 一 行 。 
内 存 中 的 信息 用 于 管理 文件 系统 并 通过 缓存 来 提高 性 能 。 这 些 数据 在 安装 文件 系统 时 被 
加 载 ， 在 文件 系统 操作 期 间 被 更 新 ， 在 印 载 时 被 丢弃 。 这 些 结构 的 类 型 可 能 包括 : 
e 内 存 中 的 安装 表 (mount table) 包含 每 个 安装 卷 的 有 关 信 息 。 
e 内 存 中 的 目录 结构 的 缓存 含有 最 近 访 问 目录 的 信息 。( 对 于 加 载 卷 的 目录 ， 它 可 以 包 
括 一 个 指向 卷 表 的 指针 ,) 

e 整个 系统 的 打开 文件 表 (system-wide open-file table) 包括 每 个 打开 文件 的 FCB 的 副 
本 以 及 其 他 信息 。 

© 每 个 进程 的 打开 文件 表 ( per-process open-file table) 包括 一 个 指向 整个 系统 的 打开 文 
件 表 中 的 适当 条 目的 指针 ， 以 及 其 他 信息 。 

o 当 对 磁盘 读 出 或 写 人 时 ， 绥 冲 区 保存 文件 系统 的 块 。 

为 了 创建 新 的 文件 ， 应 用 程序 调用 逻辑 文件 系统 。 逻 辑 文件 系统 知道 目录 结构 的 格式 ; 
它 会 分 配 一 个 新 的 FCB。( 或 者 如 果 文 件 系 统 的 实现 在 文 ”L- ， 

件 系 统 创建 时 已 经 创建 了 所 有 的 FCB， 则 可 从 空闲 的 | 实体 权限 


FCB 集合 中 分 配 一 个 可 用 的 FCB.) 然后 ， 系 统 将 相应 的 | Serer Come, Bi, SA) 


目录 读 到 内 存 ， 使 用 新 的 文件 名 和 FCB 进行 更 新 ， 并 将 
它 写 回 到 磁盘 。 图 11-2 显示 了 一 个 典型 的 FCB。 

有 些 操作 系统 ,包括 UNIX， 将 目录 完全 按 文件 来 
处 理 ， 而 用 一 个 类 型 域 来 表示 是 否 为 目录 。 其 他 操作 系 “| 
Bi, 包括 Windows， 为 文件 和 目录 提供 了 分 开 的 系统 调 
用 ， 对 文件 和 目录 采用 了 不 同 的 处 理 。 无 论 多 大 的 结构 性 ET 典型 文件 控制 
问题 ， 逻 辑 文件 系统 可 调用 文件 组 织 模块 ， 以 将 目录 VO 映射 到 磁盘 块 号 ,再 进而 传递 给 基 
本 文件 系统 和 1/0 控制 系统 。 

现在 ， 一 旦 文件 被 创建 ， 它 就 能 用 于 1/0。 不 过 ， 首 先 ， 它 应 被 打开 。 系 统 调用 
open() 将 文件 名 传递 到 有 逻辑 文件 系统 。 系 统 调用 open() 首先 搜索 整个 系统 的 打开 文件 表 ， 
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以 便 确定 这 个 文件 是 否 已 被 其 他 进程 使 用 。 如 果 是 ， 则 在 单个 进程 的 打开 文件 表 中 创建 一 个 
条 目 ， 并 让 其 指向 现 有 整个 系统 的 打开 文件 表 。 该 算法 能 节省 大 量 开 销 。 如 果 这 个 文件 尚未 
打开 ， 则 根据 给 定 的 文件 名 来 搜索 目录 结构 。 部 分 的 目录 结构 通常 缓存 在 内 存 中 ， 以 加 速 目 
录 操 作 。 在 找到 文件 后 ， 它 的 FCB 会 复制 到 内 存 的 整个 系统 的 开放 文件 表 中 。 该 表 不 但 存 
储 FCB ， 而 且 还 跟踪 打开 该 文件 的 进程 的 数量 。 

接 下 来 ， 在 单个 进程 的 打开 文件 表 中 会 创建 一 个 条 目 ， 指 向 整个 系统 打开 文件 表 的 条 
目的 一 个 指针 ， 以 及 其 他 一 些 域 。 这 些 域 可 能 包含 文件 的 当前 位 置 的 指针 (用 于 接 下 来 的 
read() 或 write() 操作 ) 和 打开 文件 的 访问 模式 。 调 用 open() 返回 单个 进程 的 打开 文件 
表 的 适当 条 目的 一 个 指针 。 以 后 ， 所 有 文件 操作 通过 这 个 指针 执行 。 文 件 名 不 必 是 打开 文件 
表 的 一 部 分 ， 因 为 一 旦 完成 对 FCB 在 磁盘 上 的 定位 ， 系 统 就 不 再 使 用 文件 名 了 。 不 过 ， 它 
可 以 被 缓存 起 来 ， 以 节省 同一 文件 的 后 续 打 开 时 间 。 打 开 文 件 表 的 条 目 有 多 种 名 称 。UNIX 
称 之 为 文件 描述 符 (file descriptor), Windows 称 之 为 文件 句柄 (file handle), 

当 进程 关闭 文件 时 ， 它 的 单个 进程 表 的 条 目 会 被 删除 ， 并 且 整 个 系统 的 条 目的 打开 数量 
会 被 递减 。 当 所 有 打开 该 文件 的 用 户 关 闭 它 时 ， 任 何 更 新 的 元 数据 会 被 复制 到 基于 磁盘 的 目 
录 结 构 ， 并 且 整 个 系统 的 打开 文件 表 的 条 目 会 被 删除 。 

有 的 系统 通过 文件 系统 作为 对 其 他 系统 方面 的 访问 接口 ， 如 网 络 ， 让 这 个 方案 更 加 复 
杂 。 例 如 , Æ UFS 中 ， 整 个 系统 的 打开 文件 表 包 含 文件 和 目录 的 inode 和 其 他 信息 。 它 也 有 
网 络 连接 和 设备 的 类 似 信息 。 以 这 种 方式 ， 一 个 机 制 可 以 用 于 多 个 目的 。 

文件 系统 结构 的 缓存 方面 不 应 忽视 。 大 多 数 系统 在 内 存 中 保留 了 打开 文件 的 所 有 信息 
(除了 实际 的 数据 块 )。 BSD UNIX 系统 在 使 用 缓存 方面 比较 典型 ， 哪 里 能 节省 磁盘 IO 哪里 
就 使 用 缓存 。 它 的 平均 缓存 命中 率 为 85%， 显 示 了 这 些 技术 非常 值得 推行 。 附 录 A 会 详细 
描述 BSD UNIX 系统 。 

图 11-3 总 结 了 文件 系统 实现 的 操作 结构 。 








用 户 空间 内 核 内 存 辅助 存储 
a) 打开 文件 
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b ) 读 文 件 


图 11-3 内存 中 的 文件 系统 结构 
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11.2.2 分 区 与 安装 


磁盘 布局 可 有 多 种 ， 具 体 取决 于 操作 系统 。 一 个 磁盘 可 以 分 成 多 个 分 区 ， 或 者 一 个 卷 可 
以 跨越 多 个 磁盘 的 多 个 分 区 。 前 者 的 布局 在 这 里 讨论 ; 而 后 者 ， 作 为 RAID 的 一 种 形式 更 为 
合适 ， 将 在 12.7 节 中 讨论 。 

分 区 可 以 是 “ 生 的 ”( 或 原始 的 ， 空 白 的 )， 没 有 文件 系统 ; 或 者 “ 熟 的 "， 含 有 文件 系统 。 
当 没有 合适 的 文件 系统 时 ， 可 以 使 用 原始 磁盘 (raw disk)。 例 如 ，UNIX 交换 空间 可 以 使 用 
原始 分 区 ， 因 为 它 不 使 用 文件 系统 ， 而 是 使 用 自己 的 磁盘 格式 。 同 样 ， 有 些 数据 库 使 用 原 
始 磁盘 ， 并 格式 数据 ， 以 满足 它们 的 需要 。 原 始 磁 盘 也 可 用 于 存储 RAID 磁盘 系统 所 需 的 信 
息 ， 如 用 于 表示 哪些 块 已 经 镜像 和 哪些 块 已 经 改变 而 且 需 要 镜像 的 位 图 。 类 侯 地 ， 原 始 磁盘 
可 以 包括 一 个 微型 数据 库 ， 以 便 保存 RAID 配置 信息 ， 如 哪些 磁盘 属于 哪个 RAID 集合 。 原 
始 磁盘 的 使 用 将 在 12.5.1 节 中 讨论 。 

引导 信息 可 以 存储 在 各 自分 区 中 ， 参 见 12.5.2 节 。 再 者 ， 它 有 自己 的 格式 ， 因 为 在 引 
导 时 系统 没有 加 载 的 文件 系统 代码 ， 因 此 不 能 解释 文件 系统 的 格式 。 因 此 ， 引 导 信 息 通 常 是 
一 系列 连续 的 块 ， 可 作为 映像 加 载 到 内 存 。 映 像 的 执行 从 预先 定义 的 位 置 ， 如 第 一 字 节 ， 开 
始 。 这 个 引导 加 载 程序 ( boot loader) 相应 地 了 解 足 够 的 文件 系统 结构 ， 从 而 能 够 找到 并 加 
载 内 核 ， 并 开始 执行 它 。 它 不 仅 包括 指令 以 便 启动 一 个 具体 的 操作 系统 。 例 如 ， 许 多 系统 可 
以 双重 引导 (dual-booted)， 人 允许 我 们 在 单个 系统 上 安装 多 个 操作 系统 。 系 统 如 何 知 道 启动 哪 
一 个 ?了解 多 个 文件 系统 和 多 个 操作 系统 的 启动 加 载 程序 ， 可 以 占用 启动 空间 。 一 旦 加 载 ， 
它 可 以 启动 磁盘 上 可 用 的 任 一 操作 系统 。 磁 盘 可 以 有 多 个 分 区 ， 每 个 包含 不 同类 型 的 文件 系 
统 和 不 同 的 操作 系统 。 

根 分 区 (root partition)， 包 括 操作 系统 内 核 和 其 他 系统 文件 ， 在 启动 时 安装 。 其 他 卷 可 
以 在 引导 时 自动 安装 或 以 后 手动 安装 ， 这 取决 于 操作 系统 。 作 为 成 功 安装 操作 的 一 部 分 ， 操 
作 系 统 验 证 设备 包含 有 效 的 文件 系统 。 操 作 系统 通过 设备 驱动 程序 读 人 设备 目录 ， 并 验证 目 
录 是 否 具有 预期 格式 。 如 果 格 式 无 效 ， 则 必须 检查 分 区 的 一 致 性 ， 并 根据 需要 自动 或 手动 地 
加 以 纠正 。 最 后 ， 操 作 系 统 在 内 存 的 安装 表 中 ， 注 明 已 安装 的 文件 系统 及 其 类 型 。 该 功能 的 
细节 取决 于 操作 系统 。 

基于 Microsoft Windows 的 系统 将 每 个 卷 安装 在 分 开 的 名 称 空间 中 ， 用 一 个 字母 和 一 个 
冒号 表示 。 例 如 ， 操 作 系统 为 了 记录 一 个 文件 系统 已 安装 在 F: 上 ， 会 在 对 应 F: 的 设备 结构 
的 一 个 域 中 加 上 该 文件 系统 的 一 个 指针 。 当 一 个 进程 指定 驱动 程序 字母 时 ， 操 作 系统 找到 适 
当 的 文件 系统 的 指针 ， 并 遍历 该 设备 的 目录 结构 以 查找 指定 的 文件 或 目录 。Windows 的 后 来 
版 本 可 以 在 现 有 目录 结构 的 任何 一 个 点 上 安装 文件 系统 。 

UNIX 可 以 将 文件 系统 安装 在 任何 目录 上 。 安 装 的 实现 ， 采 用 在 目录 inode 的 内 存 副本 
上 加 上 一 个 标志 。 这 个 标志 表示 该 目录 是 安装 点 。 还 有 一 个 域 指向 安装 表 的 条 目 ， 表 示 哪 个 
设备 安装 在 哪里 。 安 装 表 的 条 目 包 括 该 设备 的 文件 系统 超级 块 的 一 个 指针 。 这 种 方案 使 操作 
系统 可 以 遍历 它 的 目录 结构 ， 并 在 文件 系统 之 间 进 行 无 缝 切换 。 


11.2.3 ”虚拟 文件 系统 


前 一 节 清 楚 地 说 明了 ， 现 代 操 作 系统 必须 同时 支持 多 种 类 型 的 文件 系统 。 但 是 ， 操 作 系 
统 如 何 才能 将 多 个 类 型 的 文件 系统 集成 到 目录 结构 中 ? 还 有 ， 用 户 如 何在 访问 文件 系统 空间 
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时 ， 可 以 无 颖 地 在 文件 系统 类 型 之 间 迁 移 ? 现在 ， 我 们 讨论 这 些 实现 细节 。 

实现 多 种 类 型 文件 系统 的 一 个 明显 但 欠 佳 的 方法 是 ， 为 每 种 类 型 编写 目录 和 文件 程序 。 
然而 ， 取 而 代 之 的 是 ， 大 多 数 操作 系统 ,包括 UNIX， 采 用 面向 对 象 的 技术 来 简化 、 组 织 和 
模块 化 实现 。 采 用 这 些 方 法 允许 不 同文 件 系 统 类 型 可 通过 同样 结构 来 实现 ， 这 也 包括 网 络 文 
件 系统 类 型 ， 如 NFS。 用 户 访问 的 文件 可 以 位 于 本 地 磁盘 的 多 种 类 型 的 文件 系统 上 ， 甚 至 网 
络 上 的 可 用 文件 系统 。 

数据 结构 和 程序 用 于 隔离 基本 系统 调用 的 功能 与 实现 细节 。 因 此 ， 文 件 系统 的 实现 由 三 
个 主要 层 组 成 ， 如 图 11-4 所 示 。 第 一 层 为 文件 系统 接口 ， 基 于 open() 、read() 、write() 
和 close() 调用 及 文件 描述 符 。 





图 11-4 虚拟 文件 系统 的 示意 图 


第 二 层 称 为 虚拟 文件 系统 (Virtual File System, VFS) JZ, VFS 层 提供 两 个 重要 功能 : 

o 通过 定义 一 个 清晰 的 VFS 接口 ， 它 将 文件 系统 的 通用 操作 和 实现 分 开 。VFS 接口 的 
多 个 实现 可 以 共存 在 同一 台 机 器 上 ， 人 允许 透明 访问 本 地 安装 的 不 同类 型 的 文件 系统 。 

e 它 提 供 了 一 种 机 制 ， 以 唯一 表示 网 络 上 的 文件 。VFS 基于 称 为 虚拟 节点 或 v 节 点 
(vnode) 的 文件 表示 结构 ， 它 包含 一 个 数字 指示 符 以 唯一 表示 网 络 上 的 一 个 文件 。( 在 
一 个 文件 系统 内 ，UNIX inode 是 唯一 的 。) 这 种 网 络 的 唯一 性 需要 用 来 支持 网 络 文件 
系统 。 内 核 为 每 个 活动 节点 (文件 或 目录 ) 保存 一 个 vnode 结构 。 

因此 ，VFS 区 分 本 地 文件 和 远程 文件 ; 根据 文件 系统 类 型 ， 进 一 步 区 分 本 地 文件 。 

VES 根据 文件 系统 类 型 调用 特定 文件 类 型 的 操作 以 便 处 理 本 地 请 求 ， 通 过 调用 NFS 协 
议程 序 来 处 理 远程 请 求 。 文 件 句柄 可 以 根据 相应 的 vnode 来 构造 ， 并 作为 参数 传递 给 这 些 程 
序 。 实 现 文件 系统 类 型 或 远程 文件 系统 协议 的 层 属 于 架构 的 第 三 层 。 

下 面 简 要 分 析 一 下 Linux 的 VFS 架构 。Linux VFS 定义 4 种 主要 对 象 类 型 ， 

e 索引 节点 对 象 (inode object)， 表 示 一 个 单独 的 文件 。 

© 文件 对 象 (file object)， 表 示 一 个 已 打开 的 文件 。 

o 超级 块 对 象 (superblock object)， 表 示 整 个 文件 系统 。 

e 目录 条 目 对 象 (dentry object)， 表 示 单 个 目录 条 目 。 

对 于 以 上 4 种 对 象 类 型 的 每 种 ，VFS 定义 了 一 组 可 以 进行 的 操作 。 这 些 类 型 的 每 个 对 
象 都 包含 了 一 个 函数 表 的 指针 ; 而 函数 表 包 含 了 为 实现 该 特定 对 象 操 作 的 实际 函数 的 地 址 ，。 
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例如 ， 文 件 对 象 操作 的 一 些 缩写 API 包括 : 

e int open(...) 一 一 打开 一 个 文件 。 

e int close(,;;) 一 一 关闭 = 个 已 打开 的 文件 。 

e ssize t read(.,.) 一 一 读 文 件 。 

e ssize t write(.,.) 一 一 写 文 件 。 

e int mmap(.;.) 一 一 内 存 映 射 一 个 文件 。 
特定 文件 类 型 的 文件 对 象 的 实现 ， 需 要 实现 文件 对 象 定义 内 的 每 个 函数 。( 文 件 对 象 的 完整 
定义 ， 为 文件 /usr/include/linux/fs.h 的 struct file operations,) 

因此 ， 当 VES 软件 层 对 这 些 对 象 进行 操作 时 ， 可 以 通过 调用 对 象 函数 表 内 的 适当 函数 ， 
而 无 需 事先 知道 它 正 在 处 理 什么 样 的 对 象 。 对 于 inode 代表 的 是 磁盘 文件 、 目 录 文件 或 远程 
文件 ，VFS 并 不 知道 或 者 不 关心 。 实 现 文件 read() 操作 的 对 应 函数 总 是 位 于 函数 表 的 相同 
位 置 ， 而 且 VES 软件 层 在 调用 这 些 函 数 时 并 不 关心 数据 是 如 何 被 读 取 的 。 


11.3 ”目录 实现 


目录 分 配 和 目录 管理 的 算法 选择 显著 影响 文件 系统 的 效率 、 性 能 和 可 靠 性 。 本 节 讨论 这 
些 算法 的 优 缺 点 。 


11.3.1 线性 列表 


目录 实现 的 最 简单 方法 是 ， 采 用 文件 名 称 和 数据 块 指针 的 线性 列表 。 这 种 方法 编程 简 
单 ， 但 执行 费时 。 当 创建 新 的 文件 时 ， 必 须 首 先 搜索 目录 以 确定 没有 同样 名 称 的 文件 存在 。 
然后 ， 在 目录 后 增加 一 个 新 的 条 目 。 当 删除 一 个 文件 时 ， 搜 索 目 录 以 查找 具有 给 定名 称 的 文 
件 ， 然 后 释放 分 配给 它 的 空间 。 当 要 重用 目录 条 目 时 ， 可 以 有 多 种 方法 。 可 以 将 目录 条 目标 
记 为 不 再 使 用 (通过 为 其 分 配 特殊 名 称 ， 例 如 一 个 全 为 空白 的 名 称 ; 或 者 通过 为 每 个 条 目 增 
加 一 个 使 用 一 非 使 用 位 ), 或 者 可 以 将 它 加 到 空闲 目 录 条 目的 列表 上 。 第 三 种 方法 是 ,将 目 
录 的 最 后 一 个 条 目 复制 到 空闲 位 置 ， 并 减少 目录 的 长 度 。 链 表 可 以 用 来 减少 删除 文件 的 所 需 
时 间 。 

目录 条 目的 线性 列表 的 真正 缺点 是 ， 查 找 文件 需要 线性 搜索 。 目 录 信 息 使 用 频繁 ; 如果 
对 其 访问 很 慢 ， 用 户 会 注意 到 的 。 事 实 上 ， 许 多 操作 系统 采用 软件 缓存 ， 以 存储 最 近 访问 的 
目录 信息 。 缓 存 的 命中 避免 了 不 断 地 从 磁盘 读 取信 息 。 排 序列 表 人 允许 二 分 搜索 ， 并 且 减 少 平 
均 搜 索 时 间 。 不 过 ， 列 表 保 持 排序 的 要 求 可 能 使 文件 的 创建 和 删除 复杂 化 ， 这 是 因为 可 能 需 
要 移动 大 量 的 目录 信息 来 保持 目录 的 排序 。 更 复杂 的 树 数据 结构 ， 如 平衡 树 ， 可 能 在 这 里 更 
为 有 用 。 排 序列 表 的 一 个 优点 是 ， 不 需要 单独 的 排序 步骤 就 可 以 生成 排序 的 目录 信息 。 


11.3.2 MŠK 


用 于 文件 目录 的 另 一 个 数据 结构 是 哈 希 表 。 这 里 ， 除 了 采用 线性 列表 存储 目录 条 目 外 ， 
还 采用 了 哈 希 数据 结构 。 哈 希 表 根据 文件 名 称 获 得 一 个 值 ， 并 返回 线性 列表 内 的 一 个 元 素 指 
针 。 因 此 ， 它 大 大 地 减少 了 目录 搜索 的 时 间 。 插 入 和 删除 也 是 比较 直截了当 的 ， 虽 然 必 须 做 
出 一 些 规定 来 避免 碰撞 (两 个 文件 名 称 哈 硕 到 相同 的 位 置 )。 

哈 希 表 的 主要 困难 是 ， 它 的 通常 固定 的 大 小 和 哈 希 函数 对 大 小 的 依赖 性 。 例 如 ， 假 设 
使 用 线性 哈 希 表 来 存储 64 个 条 目 。 哈 希 函 数 可 以 将 文件 名 称 转换 为 0 ~ 63 的 整数 ， 例 如 采 
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用 除 以 64 的 余数 。 如 果 后 来 设法 创建 第 65 个 文件 ， 则 必须 扩大 目录 哈 希 表 ， 如 到 128 个 条 
目 。 因 此 ， 需 要 一 个 新 的 哈 希 函数 来 将 文件 名 称 映射 到 0 ~ 127 的 范围 ， 并 且 必 须 重新 组 织 
现 有 目录 条 目 以 体现 它们 新 的 哈 希 函 数值 。 

或 者 ， 可 以 采用 溢出 链接 ( chained-overflow) 的 哈 希 表 。 哈 希 表 的 每 个 条 目 可 以 是 链 
表 而 不 是 单个 值 ， 可 以 采用 向 链表 增加 新 的 条 目 来 解决 冲突 。 由 于 查找 一 个 名 称 可 能 需要 搜 
索 由 冲突 条 目 组 成 的 链表 ， 因 而 查找 可 能 变 慢 。 但 是 ,这 比 线性 搜索 整个 目录 可 能 还 是 要 快 
很 多 。 


11.4 分 配方 法 


磁盘 直接 访问 的 特点 在 文件 实现 时 提供 了 灵活 性 。 在 几乎 每 种 情况 下 ， 很 多 文件 都 是 存 
储 在 同一 个 磁盘 上 的 。 主 要 的 问题 是 ， 如 何 为 这 些 文件 分 配 空间 ， 以 便 有 效 使 用 磁盘 空间 和 
快速 访问 文件 。 磁 盘 空 间 分 配 的 主要 常用 方法 有 三 个 : 连续 、 链 接 和 索引 。 每 个 方法 各 有 优 
缺点 。 虽 然 有 些 系 统 对 这 三 种 方法 都 支持 。 但 是 更 为 常见 的 是 ， 一 个 系统 只 对 同一 文件 系统 
类 型 的 所 有 文件 采用 一 种 方法 。 


11.4.1 连续 分 配 


连续 分 配 ( contiguous allocation) 方法 要 求 ， 每 个 文件 在 磁盘 上 占有 一 组 连续 的 块 。 磁 
盘 地 址 为 磁盘 定义 了 一 个 线性 排序 。 有 了 这 个 排序 ， 假 设 只 有 一 个 作业 正在 访问 磁盘 ， 在 块 
b 之 后 访问 块 b+ 1 通常 不 需要 移动 磁头 。 当 需要 磁头 移动 (从 一 个 柱 面 的 最 后 扇 区 到 下 一 
个 柱 面 的 第 一 扇 区 ) 时 ， 只 需要 移动 一 个 磁道 。 因 
此 ， 用 于 访问 连续 分 配 文件 的 所 需 寻 道 数 量 最 小 ; 
在 确实 需要 寻 道 时 所 需 的 寻 道 时 间 也 最 小 。 

文件 的 连续 分 配 可 以 用 首 块 的 磁盘 地 址 和 连 
续 的 块 数 来 定义 。 如 果 文 件 有 n 块 长 并 从 位 置 b 开 
始 ， 则 该 文件 将 占有 块 b, b+1, b+2, =, b+ 
n 一 1。 每 个 文件 的 目录 条 目 包 括 起 始 块 的 地 址 和 该 
文件 所 分 配 区 域 的 长 度 ， 参 见 图 11-5。 

连续 分 配 文件 的 访问 非常 容易 。 对 于 顺序 访 
E, 文件 系统 会 记 住 上 次 引用 的 块 的 磁盘 地 址 ， 如 
需要 可 读 人 下 一 块 。 对 于 直接 访问 一 个 文件 的 从 块 
b 开始 的 第 i 块 ， 可 以 直接 访问 块 b+ i。 因 此 ， 连 
续 分 配 支 持 顺 序 访问 和 直接 访问 。 

不 过 ， 连 续 分 配 也 有 一 些 问题 。 一 个 难题 是 ， 
为 新 文件 找到 空间 。 用 于 管理 空闲 空间 的 系统 决定 了 这 个 任务 如 何 完成 ; 这 些 管理 系统 将 在 
11.5 节 中 讨论 。 虽 然 可 以 使 用 任何 管理 系统 ， 但 是 有 的 系统 会 比 其 他 的 要 慢 。 

连续 分 配 问题 可 以 作为 8.3 节 所 述 的 通用 动态 存储 分 配 ( dynamic storage-allocation) ) 问 
题 的 一 个 具体 应 用 ， 即 如 何 从 一 个 空闲 孔 列 表 中 寻找 一 个 满足 大 小 为 n 的 空间 。 从 一 组 空闲 
孔 中 寻找 一 个 空闲 孔 的 最 为 常用 的 策略 是 ， 首 次 适合 和 最 优 适合 。 模 拟 结果 显示 在 时 间 和 空 
间 使 用 方面 ， 首 次 适合 和 最 优 适合 都 要 比 最 坏 适 合 更 为 高 效 。 首 次 适合 和 最 优 适 合 在 空间 使 
用 方面 不 相 上 下 , 但 是 首次 适合 一 般 更 快 。 





图 11-5 磁盘 空间 的 连续 分 配 
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所 有 这 些 算法 都 有 外 部 碎片 (external fragmentation) 的 问题 。 随 着 文件 的 分 配 和 删 
除 ， 可 用 磁盘 空间 被 分 成 许多 小 片 。 只 要 空闲 空间 分 成 小 片 ， 就 会 存在 外 部 碎片 。 当 最 大 
连续 片 不 能 满足 需求 时 就 有 问题 ; 存储 空间 分 成 了 许多 小 片 ， 其 中 没有 一 个 足够 大 以 存储 
数据 。 因 磁盘 存储 总 量 和 文件 平均 大 小 的 不 同 ， 外 部 碎片 可 能 是 个 小 问题 ， 但 也 可 能 是 个 大 
问题 。 

为 了 防止 外 部 碎片 引起 的 大 量 磁盘 空间 的 浪费 ， 将 整个 文件 系统 复制 到 另 一 个 磁盘 。 
原来 的 磁盘 完全 变 成 空 的 ， 从 而 创建 了 一 个 大 的 连续 空闲 空间 。 然 后 ， 通 过 从 这 个 大 的 连 
续 空 闲 空间 采用 连续 分 配方 法 ， 将 这 些 文件 复制 回来 。 这 种 方案 将 所 有 空闲 空间 有 效 合并 
(compact) 起 来 ， 解 决 了 碎片 问题 。 这 种 合并 的 代价 是 时 间 ， 而 且 大 硬盘 的 代价 可 能 特别 高 。 
合并 这 些 磁盘 空间 可 能 需要 数 小 时 ， 可 能 每 周 都 需 进行 。 有些 系统 要 求 ， 这 个 功能 线 下 (off- 
line) 执行 旦 文件 系统 要 印 载 。 在 这 停机 期 间 ( down time)， 不 能 进行 正常 操作 ， 因 此 生产 系 
统 应 尽 可 能 地 避免 合并 。 大 多 数 的 需要 整理 碎片 的 现代 系统 能 够 和 正常 的 系统 操作 一 起 在 线 
(on-line) 执行 合并 ， 但 是 性 能 下 降 可 能 很 明显 。 

连续 分 配 的 另 一 个 问题 是 ， 确 定 一 个 文件 需要 多 少 空间 。 当 创建 一 个 文件 时 ， 需 要 找到 
并 分 配 它 所 需 空间 的 总 数 。 创 建 者 〈 程 序 或 人 员 ) 又 如 何 知 道 所 创建 文件 的 大 小 ? 在 某 些 情 
况 下 ， 这 种 判断 可 能 相当 简单 〈 例 如 ， 复 制 一 个 现 有 文件 ) ; 一般 来 说 ， 输 出 文件 的 大 小 可 
能 难以 估计 。 

如 果 为 文件 分 配 的 空间 太 小 ， 则 可 能 会 发 现 文件 无 法 扩展 。 特 别 是 对 于 最 优 适合 的 分 配 
策略 ， 文 件 两 侧 的 空间 可 能 已 经 使 用 。 因 此 ， 不 能 在 原 地 让 文件 更 大 。 这 时 ， 有 两 种 可 能 办 
法 。 第 一 ， 可 以 终止 用 户 程序 ， 并 给 出 适当 的 错误 消息 。 这 样 ， 用 户 必 须 分 配 更 多 的 空间 ， 
并 再 次 运行 该 程序 。 这 些 重 复 的 运行 可 能 代价 很 高 。 为 了 防止 这 些 问 题 ， 用 户 通常 会 高 估 所 
需 的 磁盘 空间 ， 从 而 造成 相当 大 的 空间 浪费 。 另 一 种 可 能 是 ， 找 一 个 更 大 的 空间 ， 将 文件 内 
容 复制 到 新 空间 ， 并 释放 以 前 的 空间 。 只 要 空间 存在 ， 就 可 以 重复 这 些 动作 ， 不 过 如 此 可 能 
耗 时 。 然 而 ， 用 户 无 需 获知 究竟 发 生 了 什么 事情 ; 而 系统 虽 有 问题 仍 继续 运行 ， 只 不 过 会 越 
来 越 慢 。 

即使 文件 所 需 的 空间 总 量 事先 已 知 ， 预 先 分 配 仍 可 能 很 低 效 。 一 个 文件 在 很 长 时 间 内 增 
长 缓慢 ( 数 月 或 数 年 )， 仍 必须 按 它 的 最 终 大 小 来 分 配 足 够 空间 ， 即 使 这 个 空间 很 长 时 间 内 
不 用 。 因 此 ， 该 文件 有 一 个 很 大 的 内 部 碎片 。 

为 了 最 小 化 这 些 缺 点 ， 有 些 操作 系统 使 用 连续 分 配 的 修正 方案 。 这 里 ， 最 初 分 配 一 块 
连续 空间 。 以 后 ， 当 这 个 数量 不 够 时 ， 会 添加 另 一 块 连续 空间 ( 称 为 扩展 ( extent) )。 然 后 ， 
文件 块 的 位 置 就 记录 为 : 地 址 、 块 数 、 下 一 扩展 的 首 块 的 指针 。 在 有 些 系统 上 ， 文件 所 有 者 
可 以 设置 扩展 大 小 ， 但 是 如 果 所 有 者 不 正确 ， 这 种 设置 会 导致 低 效 。 如 果 扩展 太 大 ， 内 部 碎 
片 可 能 仍然 是 个 问题 ， 随 着 不 同 大 小 的 扩展 的 分 配 和 删除 ， 外 部 碎片 可 能 也 是 个 问题 。 商 用 
Veritas 文件 系统 使 用 扩展 来 优化 性 能 。Veritas 是 标准 UNIX UFS 的 高 性 能 替代 。 


11.4.2 ”链接 分 配 


链接 分 配 (linked allocation) 解决 了 连续 分 配 的 所 有 问题 。 采 用 链接 分 配 ， 每 个 文件 是 
磁盘 块 的 链表 ; 磁盘 块 可 能 会 散布 在 磁盘 的 任何 地 方 。 目 录 包 括 文件 第 一 块 和 最 后 一 块 的 
指针 。 例 如 ， 一 个 有 $ 块 的 文件 可 能 从 块 9 开始 ， 然 而 是 块 16、 块 1、 块 10， 最 后 是 块 25 
(图 11-6 )。 每 块 都 有 下 一 块 的 一 个 指针 。 用 户 不 能 使 用 这 些 指针 。 因 此 ， 如 果 每 块 有 512 F 
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节 ， 并 且 磁 盘 地 址 (指针 ) 需要 4 字 节 ， 则 用 户 可 以 使 用 508 FW. 

要 创建 一 个 新 文件 ， 只 需 在 目录 中 增加 一 
个 新 的 条 目 。 采 用 链接 分 配 ， 每 个 目录 条 目 都 
有 文件 首 个 磁盘 块 的 一 个 指针 。 这 个 指针 初始 | 文件 ”起 始 ”结束 


9 25 


化 为 null (链表 结束 指针 值 )， 表示 一 个 空 的 120 wad 
文件 。 大 小 字段 也 设置 为 0。 写 文件 导致 空闲 | 本 

空间 管理 系统 找到 一 个 空闲 块 ， 这 个 新 块 会 被 
写 人 ， 并 链接 到 文件 的 尾部 。 读 文件 ， 只 需 按 
照 块 到 块 的 指针 来 读 块 。 采 用 链接 分 配 没 有 外 
部 碎片 ， 空 闲 空间 列表 的 任何 块 可 以 用 于 满足 
请 求 。 当 创建 文件 时 ， 并 不 需要 说 明文 件 的 大 
小 。 只 要 有 可 用 的 空闲 块 ， 文 件 就 可 以 继续 增 
长 。 因 此 ， 无 需 合 并 磁盘 空间 。 

然而 ， 链 接 分 配 确 实 有 缺点 。 主 要 问题 
是 ， 它 只 能 有 效用 于 顺序 访问 文件 。 要 找到 文 ， 
件 的 第 i 个 块 ， 必 须 从 文件 的 开始 起 ， 跟 着 指 图 11-6 磁盘 空间 的 链接 分 配 
针 ， 找 到 第 i 块 。 每 个 指针 的 访问 都 需要 一 
磁盘 读 ， 有 时 需要 磁盘 寻 道 。 因 此 ， 链 接 分 配 不 能 有 效 支持 文件 的 直接 访问 。 

另 一 个 缺点 是 指针 所 需 的 空间 。 如 果 指 针 需 要 使 用 $12 字 节 块 的 4 字 节 ， 则 0.78% 的 
磁盘 空间 会 用 于 指针 ， 而 不 是 其 他 信息 。 每 个 文件 需要 比 原来 稍 多 的 空间 。 

这 个 问题 的 通常 解决 方案 是 ， 将 多 个 块 组 成 得 (cluster)， 并 按 簇 而 不 是 按 块 来 分 配 。 例 
如 ,文件 系统 可 以 定义 一 个 艇 为 4 块 ， 在 磁盘 上 仅 以 簇 为 单位 来 操作 。 这 样 ， 指 针 所 占 的 磁 
盘 空间 的 百分比 就 要 小 得 多 。 这 种 方法 使 得 逻辑 到 物理 块 的 映射 仍然 简单 ， 但 提高 了 磁盘 吞 
吐 量 (因为 需要 更 少 的 磁头 移动 )， 并 且 降 低 了 块 分 配 和 空闲 列表 管理 所 需 的 空间 。 这 种 方 
法 的 代价 增加 了 内 部 碎片 ， 如果 一 个 簇 而 不 是 块 没 有 完全 使 用 ， 则 会 浪费 更 多 空间 。 簇 可 以 
改善 许多 算法 的 磁盘 访问 时 间 ， 因 此 用 于 大 多 数 操作 系统 。 

链接 分 配 的 另 一 个 问题 是 可 靠 性 。 回 想 一 下 ， 文 件 是 通过 散布 在 磁盘 上 的 指针 链接 起 来 
的 ; 考虑 一 下 ， 如 果 指 针 丢 失 或 损坏 ， 将 会 发 生 什 么 。 操 作 系统 软件 错误 或 磁盘 硬件 故障 可 
能 导致 获得 一 个 错误 指针 。 这 个 错误 可 能 会 导致 链接 到 空闲 空间 列表 或 链接 到 另 一 个 文件 。 
一 个 不 完全 的 解决 方案 是 ， 采 用 双向 链表 ; 另 一 个 是 ， 每 块 存储 文件 名 称 和 相对 块 号 。 然 
而 ， 这 些 方 案 为 每 个 文件 增加 了 更 多 额外 开销 。 

链接 分 配 的 一 个 重要 变种 是 文件 分 配 表 ( File-Allocation Table, FAT) 的 使 用 。 这 个 简 
单 而 有 效 的 磁盘 空间 分 配方 法 用 于 MS-DOS 操作 系统 。 每 个 卷 的 开头 部 分 的 磁盘 用 于 存储 
该 表 。 在 该 表 中 ， 每 个 磁盘 块 都 有 一 个 条 目 ， 并 可 按 块 号 来 索引 。FAT 的 使 用 与 链表 相同 。 
目录 条 目 包 含 文件 首 块 的 块 号 。 通 过 这 个 块 号 索引 的 表 条 目 包 含 文件 的 下 一 块 的 块 号 。 这 
条 链 会 继续 下 去 ， 直 到 最 后 一 块 ; 而 最 后 一 块 的 表 条 目的 值 为 文件 结束 值 。 未 使 用 的 块 用 0 
作为 表 条 目的 值 来 表示 。 为 文件 分 配 一 个 新 块 只 要 简单 找到 第 一 个 值 为 0 的 FAT 条 目 ， 用 
新 块 的 地 址 替换 前 面 文件 结束 值 ， 用 文件 结束 值 替 代 0。 由 块 217、618、339 组 成 的 文件 的 
FAT 结构 如 图 11-7 所 示 。 

如 果 不 对 FAT 采用 缓存 ，FAT 分 配方 案 可 能 导致 大 量 的 磁头 寻 道 时 间 。 磁 头 必 须 移 到 
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卷 的 开头 ， 读 入 FAT， 找 到 所 需 块 的 位 置 ， 再 移 到 块 本 身 的 位 置 。 在 最 坏 的 情况 下 ， 每 块 都 
需要 移动 两 次 。 优 点 是 ， 改 善 了 随机 访问 时 间 ; 因为 通过 读 和 FAT 信息 ， 磁 头 能 找到 任何 
块 的 位 置 。 


11.4.3 ”索引 分 配 


链接 分 配 解决 了 连续 分 配 的 外 部 碎片 和 大 小 声明 的 问题 。 然 而 ， 在 没有 FAT 时 ， 链 接 
分 配 不 能 支持 高 效 的 直接 访问 ， 因 为 块 指针 与 块 一 起 分 散在 整个 磁盘 上 ， 并 且 必 须 按 序 读 
取 。 索 引 分 配 ( indexed allocation) 通过 将 所 有 指针 放 在 -- 起 ， 即 索引 块 ( index block)， 解 
决 了 这 个 问题 。 

每 个 文件 都 有 自己 的 索引 块 ， 这 是 一 个 磁盘 块 地 址 的 数组 。 索 引 块 的 第 i 个 条 目 指 癌 文 
件 的 第 i 个 块 。 目录 包含 索引 块 的 地 址 (图 11-8 )。 当 查找 和 读 取 第 i 个 块 时 ， 采用 第 i 个 索 
引 块 条 目的 指针 。 这 个 方案 类 似 于 8.5 节 所 述 的 分 页 方案 。 


目录 条 目 





图 11-7 文件 分 配 表 图 11-8 ”磁盘 空间 的 索引 分 配 


当 创 建文 件 时 ， 索 引 块 的 所 有 指针 都 设 为 null1。 当 首次 写 入 第 i 块 时 ， 先 从 空 闪 空间 
管理 絮 中 获得 一 块 ， 再 将 其 地 址 写 到 索引 块 的 第 i 个 条 目 。 

索引 分 配 支持 直接 访问 ， 并 且 没 有 外 部 碎片 问题 ， 因 为 磁盘 的 任何 空闲 块 可 以 满足 更 
多 空间 的 请 求 。 然 而 ， 索 引 分 配 确实 浪费 空间 。 索 引 块 指针 的 开销 通常 大 于 链接 分 配 的 指针 
开销 。 考 虑 一 下 常见 情况 ， 即 一 个 文件 只 有 一 块 或 两 块 。 采 用 链接 分 配 ， 每 块 只 浪费 一 个 指 
针 的 空间 。 采 用 索引 分 配 ， 即 使 只 有 一 个 或 两 个 指针 是 非 空 的 ， 也 必须 分 配 一 个 完整 的 索 
引 块 。 

这 一 点 提出 了 一 个 问题 : 索引 块 应 为 多 大 ? 每 个 文件 必须 有 一 个 索引 块 ， 因 此 需要 索引 
块 尽 可 能 小 。 然 而 ， 如 果 索 引 块 太 小 ， 它 不 能 为 大 的 文件 存储 足够 多 的 指针 。 因 此 ， 必 须 采 
取 一 种 机 制 ， 以 处 理 这 个 问题 。 此 目的 的 机 制 包 括 : 

e 链接 方案 : 一 个 索引 块 通常 为 一 个 磁盘 块 。 因 此 ， 它 本 身 能 直接 读 写 。 为 了 支持 大 的 
文件 ， 可 以 将 多 个 索引 块 链接 起 来 。 例 如 ， 一 个 索引 块 可 以 包括 一 个 含有 文件 名 的 
头 部 和 一 组 头 100 个 磁盘 块 的 地 址 。 下 一 个 地 址 〈 索 引 块 的 最 后 一 个 字 ) 为 nu11 (对 
于 小 文件 )， 或 者 另 一 个 索引 块 的 指针 《〈 对 于 大 文件 )。 
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e 多 级 索引 : 链接 表示 的 一 种 变种 是 ， 通 过 第 一 级 索引 块 指向 一 组 第 二 级 的 索引 块 ， 它 
又 指向 文件 块 。 当 访问 一 块 时 ， 操 作 系 统 通过 第 一 级 索引 查找 第 二 级 索引 块 ， 再 采 
用 这 个 块 查找 所 需 的 数据 块 。 这 种 做 法 可 以 持续 到 第 三 级 或 第 四 级 ， 具 体 取决 于 最 
大 文件 大 小 。 对 于 4096 字 节 的 块 ， 可 以 在 索引 块 中 存 人 1024 个 4 字 节 的 指针 。 两 
级 索引 支持 1 048 576 个 数据 块 和 4GB 的 最 大 文件 。 
组 合 方案 : 另 一 个 选择 ， 用 于 基于 UNIX 的 文件 系统 ， 将 索引 块 的 前 几 个 (如 15 ) 
指针 存在 文件 的 inode 中 。 这 些 指针 的 前 12 个 指向 直接 块 (direct block); 即 它们 包 
含 存储 文件 数据 的 块 的 地 址 。 因 此 ， 小 的 文件 〈 不 超过 12 块 ) 不 需要 单独 的 索引 块 。 
如 果 块 大 小 为 4KB， 则 不 超过 48KB 的 数据 可 以 直接 访问 。 接 下 来 的 3 个 指针 指向 
间接 块 (indirect block)。 第 一 个 指向 一 级 间接 块 (single indirect block)。 一 级 间接 块 
为 索引 块 ， 它 包含 的 不 是 数据 ， 而 是 真正 包含 数据 的 块 的 地 址 。 第 二 个 指向 二 级 间 
接 块 (double indirect block)， 它 包含 了 一 个 块 的 地 址 ， 而 这 个 块 内 的 地 址 指向 了 一 些 
块 ， 这 些 块 中 又 包含 了 指向 真实 数据 块 的 指针 。 最 后 一 个 指针 为 三 级 间接 块 (triple 
indirect block) 指针 。 图 11-9 显示 了 一 个 UNIX 的 inode。 
采用 这 种 方法 ， 一 个 文件 的 块 数 可 以 超过 许多 操作 系统 所 用 的 4 字 节 的 文件 指针 所 能 访 

问 的 空间 。32 位 指针 只 能 访问 2° 字 节 ， 或 4GB。 许 多 UNIX 和 Linux 现在 支持 64 位 的 文 

EU 件 指针 。 这 样 的 指针 允许 文件 和 文件 系统 为 数 艾 字 节 。ZFS 文件 系统 支持 128 位 的 文件 指针 。 





图 11-9 UNIX 的 inode 


索引 分 配方 案 与 链接 分 配 一 样 在 性 能 方面 有 所 欠缺 。 尤 其 是 ， 虽 然 索引 块 可 以 缓存 在 内 
FF, 但 是 数据 块 可 能 分 布 在 整个 卷 上 。 


11.4.4 ERE 


已 上 讨论 的 分 配方 法 ， 在 存储 效率 和 数据 块 访问 时 间 上 有 所 不 同 。 当 操作 系统 选择 合适 
方法 来 实现 时 ， 这 两 者 都 是 重要 依据 。 

在 选择 分 配方 法 之 前 ， 需 要 确定 系统 是 如 何 使 用 的 。 以 顺序 访问 为 主 的 系统 和 以 随机 访 
问 为 主 的 系统 ， 不 应 采用 相同 的 方法 。 

对 于 任何 类 型 的 访问 ， 连 续 分 配 只 需 访问 一 次 就 能 获得 磁盘 块 。 由 于 可 以 在 内 存 中 容易 
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地 保存 文件 的 开始 地 址 ， 所 以 可 以 立即 计算 第 i 块 (或 下 一 块 ) 的 磁盘 地 址 ， 并 直接 读 取 。 

对 于 链接 分 配 ， 也 可 以 在 内 存 中 保留 下 一 块 的 地 址 ， 并 直接 读 取 。 对 于 顺序 访问 ， 这 种 
方法 很 好 ; 然而 ,对 于 直接 访问 ， 对 第 i 块 的 访问 可 能 需要 读 i 次 磁盘 。 这 个 问题 表明 了 ， 
为 什么 链接 分 配 不 适用 于 需要 直接 访问 的 应 用 程序 。 

因此 ， 有 的 系统 通过 使 用 连续 分 配 支持 直接 访问 的 文件 ， 通 过 链接 分 配 支持 顺序 访问 的 
文件 。 对 于 这 些 系 统 ， 在 创建 文件 时 必须 声明 使 用 的 访问 类 型 。 用 于 顺序 访问 的 文件 可 以 链 
接 分 配 ， 但 不 能 用 于 直接 访问 。 用 于 直接 访问 的 文件 可 以 连续 分 配 ， 能 支持 直接 访问 和 顺序 
访问 ， 但 是 在 创建 时 必须 声明 其 最 大 的 文件 大 小 。 在 这 种 情况 下 ， 操 作 系统 必须 具有 适当 的 
数据 结构 和 算法 ， 来 支持 两 种 分 配方 法 。 文 件 可 以 从 一 种 类 型 转 成 另 一 种 类 型 : 创建 一 个 所 
需 类 型 的 新 文件 ， 将 原来 文件 的 内 容 复 制 过 来 ， 然 后 可 以 删除 旧 文件 ， 再 重新 命名 新 文件 。 

索引 分 配 更 为 复杂 。 如 果 索 引 块 已 在 内 存 ， 则 可 以 进行 直接 访问 。 然 而 ， 在 内 存 中 保存 
索引 块 需要 相当 大 的 空间 。 如 果 没 有 这 个 内 存 空间 ， 则 可 能 必须 先 读 取 索 引 块 ， 再 读 取 所 需 
的 数据 块 。 对 于 两 级 索引 ， 可 能 需要 读 取 两 次 索引 块 。 对 于 一 个 极 大 的 文件 ， 访 问 文件 末尾 
附近 的 块 需要 首先 读 取 所 有 的 索引 块 ， 最 后 才能 读 人 所 需 的 数据 块 。 因 此 ， 索 引 分 配 的 性 能 
取决 于 索引 结构 、 文 件 大 小 以 及 所 需 块 的 位 置 。 

有 些 系统 将 连续 分 配 和 索引 分 配 组 合 起 来 : 对 于 小 文件 (只 有 3 或 4 块 的 ) 采用 连续 分 
Ac; 当 文 件 增 大 时 ， 自 动 切换 到 索引 分 配 。 由 于 大 多 数 文件 较 小 ， 小 文件 的 连续 分 配 的 效率 
又 高 ， 所 以 平均 性 能 还 是 相当 不 错 的 。 

还 可 以 采用 许多 其 他 优化 方法 。 鉴 于 CPU 速度 和 磁盘 速度 的 差距 ， 操 作 系统 采用 数 千 
条 指令 以 节省 一 些 磁头 移动 ， 不 是 不 合理 的 。 此 外 ， 随 着 时 间 的 推移 ， 这 种 差距 会 增加 ， 以 
致 于 操作 系统 采用 数 十 万 条 指令 来 优化 磁头 移动 也 是 值得 的 。 

11.5 ”空闲 空间 管理 

由 于 磁盘 空间 有 限 ， 如 果 可 能 ， 需 要 将 删除 文件 的 空间 重新 用 于 新 文件 。( 一 次 写 人 光 
盘 允 许 对 任何 给 定 扇 区 只 写 人 一次， 因而 重用 不 再 可 能 。) 为 了 跟踪 空闲 磁盘 空间 ， 系 统 需 
要 维护 一 个 空闲 空间 列表 (free-space list)。 空 闲 空间 列表 记录 了 所 有 空闲 磁盘 空间 ， 即 未 
分 配给 文件 或 目录 的 空间 。 当 创建 文件 时 ， 搜 索 空闲 空间 列表 以 得 到 所 需 的 空间 数量 ， 并 分 
配 该 空间 给 新 文件 。 然 后 ， 这 些 空间 会 从 空闲 空间 列表 中 删除 。 当 删除 文件 时 ， 其 磁盘 空间 
会 增加 到 空闲 空间 列表 上 。 正 如 下 面 所 讨论 的 ， 空 闲 空间 列表 虽然 称 为 列表 ， 但 是 不 一 定 按 
列表 来 实现 。 


11.5.1 位 向 量 


通常 ， 空 闲 空间 列表 按 位 图 (bit map) 或 位 向 量 (bit vector) 来 实现 。 每 块 用 一 个 位 来 
表示 。 如 果 块 是 空闲 的 ， 位 为 1; 如 果 块 是 分 配 的 ， 位 为 0。 

例如 ,假设 一 个 磁盘 ， 其 中 块 2、3、 4. 5. 8. 9. 10, 11, 12, 13, 17, 18, 25, 26, 
27 为 空闲 ， 而 其 他 块 为 已 分 配 。 空 闲 空间 的 位 图 如 下 : 


001111001111110001100000011100000 ... 


这 种 方法 的 主要 优点 是 ， 在 查找 磁盘 上 的 第 1 个 空闲 块 和 nn 个 连续 的 空闲 块 时 相对 简单 
和 高 效 。 的 确 ， 许 多 计算 机 都 提供 位 操作 指令 ， 可 以 有 效用 于 这 一 目的 。 在 采用 位 图 的 系统 
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BB) 上 查找 第 一 个 空闲 块 来 分 配 磁盘 空间 的 一 种 技术 是 ， 按 顺序 检查 位 图 的 每 个 字 以 查看 其 值 是 


否 为 0， 因 为 一 个 值 为 0 的 字 只 包含 0 位 且 表 示 一 组 已 分 配 的 块 。 扫 描 第 一 个 非 0 的 字 ， 以 
查找 值 为 1 的 位 ， 它 对 应 着 第 一 个 空闲 块 。 该 块 号 码 的 计算 如 下 : 
(每 个 字 的 位 数 ) x ( 值 为 0 的 字数 ) + 第 一 个 值 为 1 的 位 的 偏 移 

再 者 ， 我 们 看 到 了 硬件 特性 简化 了 软件 功能 。 不 过 ， 除 非 整个 位 向 量 都 保存 在 内 存 中 
(并 时 而 写 人 磁盘 以 便 恢复 )， 和 否则 位 向 量 就 低 效 。 将 位 向 量 完全 保存 在 内 存 中 ， 对 于 较 小 的 
磁盘 是 可 能 的 ， 对 于 较 大 的 就 不 一 定 。 对 于 块 大 小 为 512 字 节 、 容 量 为 1.3GB 的 磁盘 ， 可 
能 需要 332KB 来 存储 位 向 量 ， 以 便 跟踪 空闲 块 。 但 是 ， 如 果 将 4 个 扇 区 合并 为 一 个 簇 ， 则 
该 数字 会 降低 到 每 个 磁盘 需要 约 83KB。 具 有 4KB RAY ITB 磁盘 要 求 256MB 来 存储 位 图 。 
由 于 磁盘 大 小 的 不 断 增加 ， 位 向 量 的 问题 会 继续 升级 。 


11.5.2 ”链表 


空闲 空间 管理 的 另 一 种 方法 是 ， 将 所 有 空 
闲 磁盘 块 用 链表 链接 起 来 ， 将 指向 第 一 空闲 块 的 
指针 保存 在 磁盘 的 特殊 位 置 上 ， 同 时 也 将 其 缓存 
在 内 存 中 。 这 个 第 一 个 块 包含 下 一 个 空闲 磁盘 
块 的 指针 ， 如 此 继续 下 去 。 回 想 一 下 前 面 的 例 
子 C11.5:1 节 )。 共 中 所 2、3、 4, 5, 8. 9 10 
11、12、13、17、18、25、26 和 27 是 空闲 的 ， 
其 余 的 块 已 分 配 。 在 这 种 情况 下 ,保留 一 个 块 2 
(第 一 个 空闲 块 ) 的 指针 。 块 2 包含 块 3 的 指针 ， 
块 3 指 向 块 4， 块 4 指向 块 5， 块 5 指向 块 8， 等 
等 (图 11-10 )。 这 种 方案 低 效 ; 在 遍历 整个 列表 
时 ， 需 要 读 入 每 块 ， 从 而 需要 大 量 的 IO 时 间 。 E Rig sa! 
不 过 ,幸运 的 是 ,遍历 空 闪 列表 不 是 一 个 频繁 操 ” 图 11-10 采用 链接 方式 的 磁盘 空闲 空间 列表 
作 。 通 常 ， 操 作 系 统 只 需 一 个 空闲 块 以 分 配给 文 
件 ， 所 以 只 使 用 分 配 空闲 列表 的 第 一 块 。FAT 方法 将 空闲 块 的 计算 结合 到 分 配 数据 结构 中 ， 
不 再 需要 单独 的 方法 。 


11.5.3 组 


空闲 列表 方法 的 一 个 改进 是 ,在 第 一 个 空闲 块 中 存储 4 个 空闲 块 的 地 址 。 这 些 块 的 前 
n- 个 确实 为 空 。 最 后 一 块 包 含 另外 于 个 空闲 块 的 地 址 ， 如 此 继续 。 大 量 空闲 快 的 地 址 可 以 
很 快 地 找到 ， 这 一 点 有 别 于 标准 链表 方法 。 


11.5.4 “计数 


另外 一 种 方法 利用 了 这 样 一 个 事实 : 通常 ， 多 个 连续 块 可 能 需要 同时 分 配 或 释放 ， 尤 其 
是 采用 连续 区 域 分 配 算法 或 采用 簇 来 分 配 空间 更 是 如 此 。 因 此 ， 不 是 记录 n 个 空闲 块 的 磁盘 
地 址 ， 而 是 记录 第 一 块 的 地 址 和 紧 跟 第 一 块 的 连续 空闲 块 的 数量 zx。 这 样 ， 空 闲 空间 列表 的 
每 个 条 目 包 括 磁盘 地 址 和 数量 。 虽 然 每 个 条 目 会 比 原来 需要 更 多 空间 ， 但 是 表 的 总 长 度 会 更 
短 ， 只 要 连续 块 的 数量 通常 大 于 1。 请 注意 ， 这 种 跟踪 空闲 空间 的 方法 类 似 于 分 配 块 的 扩展 


空 用 空间 列表 头 
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方法 。 这 些 条 目 可 以 存储 在 平衡 树 而 不 是 链表 中 ， 以 便于 高 效 查找 、 插 入 和 删除 。 
11.5.5 ”空间 图 


Oracle 的 ZFS 文件 系统 (用 于 Solaris 和 其 他 操作 系统 ) 设计 成 包含 大 量 的 文件 、 目 录 ， 
甚至 文件 系统 (在 ZFS 中， 可 以 创建 文件 系统 层次 结构 )。 在 这 种 规模 上 ， 元 数据 VO 对 性 
能 影响 可 能 很 大 。 例 如 ， 假 设 空闲 列表 按 位 图 来 实现 ， 在 分 配 和 释放 块 时 必须 修改 位 图 。 在 
ITB 磁盘 上 释放 1GB 数据 可 能 需要 更 新 位 图 的 数 千 位 ， 因 为 这 些 数 据 块 可 能 会 分 散在 整个 
磁盘 上 。 显 然 ， 这 种 系统 的 数据 结构 可 能 很 大 而 且 效 率 低下 。 

对 于 空闲 空间 的 管理 ，ZFS 采用 了 组 合 技术 ,来 控制 数据 结构 的 大 小 并 最 小 化 管理 这 些 
数据 结构 所 需 的 IO。 首 先 ，ZFS 创建 metaslab ， 以 将 设备 空间 划分 为 若干 可 控 尺 寸 的 区 域 。 
给 定 的 卷 可 以 包括 数 百 个 metaslab。 每 个 metaslab 都 有 一 个 关联 的 空间 图 。ZFS 使 用 计数 
算法 ， 以 存储 有 关 空 闲 块 的 信息 。 它 不 是 将 计数 结构 写 和 磁盘， 而 是 采用 日 志 结构 文件 系统 
技术 来 记录 它们 。 空 闲 图 为 按时 间 顺 序 和 计数 格式 的 所 有 块 活动 (分 配 和 释放 ) 的 日 志 。 
ZFS 决定 从 metaslab 中 分 配 或 释放 空间 时 ， 它 将 相关 的 空间 图 加 载 到 内 存 中 的 按 偏 移 索引 
的 平衡 树 结构 (以 便 操作 高 效 )， 并 将 日 志 重 装 到 该 结构 中 。 这 样 ， 内 存 的 空间 图 精确 表示 
metaslab 中 的 分 配 和 空闲 空间 。 通 过 将 连续 的 空闲 块 组 合成 单个 条 目 ，ZFS 也 尽 可 能 地 缩小 
空间 图 。 最 后 ， 作 为 面向 事务 的 操作 ， 更 新 磁盘 的 空闲 空间 列表 。 在 收集 和 排序 阶段 ， 块 请 
求 仍然 可 以 发 生 ，ZFS 通过 日 志 满 足 这 些 请 求 。 实 质 上 ， 日 志 加 平衡 树 就 是 空闲 列表 。 


11.6 ”效率 与 性 能 


既然 已 经 讨论 了 块 分 配 和 目录 管理 的 各 种 方案 , 那么 可 以 进一步 考虑 它们 对 磁盘 使 用 的 
性 能 和 效率 的 影响 。 由 于 磁盘 是 计算 机 主要 部 件 中 最 慢 的 ， 磁 盘 往 往 成 为 系统 性 能 的 主要 瓶 
颈 。 本 节 讨 论 各 种 技术 ， 以 改善 外 存 的 效率 和 性 能 。 


11.6.1 效率 


磁盘 空间 的 有 效 使 用 在 很 大 程度 上 取决 于 磁盘 分 配 和 目录 算法 。 例 如 ，UNIX inode fil 
先 分 配 在 卷 上 。 即 使 “ 空 ”的 磁盘 也 有 一 定 百分比 的 空间 ， 用 于 存储 inode。 然 而 ， 通 过 预 
先 分 配 inode 并 将 它们 分 散在 整个 卷 上 ， 改 进 了 文件 系统 的 性 能 。 这 种 性 能 改善 源 于 UNIX 
的 分 配 和 空闲 空间 算法 ， 这 些 算法 试图 保持 一 个 文件 的 数据 块 靠近 该 文件 的 inode 块 ， 以 便 
减少 寻 道 时 间 。 

作为 另 一 个 例子 ， 下 面 再 考虑 11.4 节 讨 论 的 簇 技术 ， 它 通过 以 内 部 碎片 为 代价 ， 改 进 
了 文件 查找 和 文件 传输 的 性 能 。 为 了 降低 这 类 碎片 ，BSD UNIX 根据 文件 增长 ， 调 节 簇 的 大 
小 。 当 大 簇 能 填 满 时 ， 就 用 大 簇 ; 对 小 文件 和 文件 最 后 一 徐 ， 就 用 小 徐 。 附 录 A 讨论 了 这 
种 系统 。 

保存 在 文件 目录 条 目 (或 inode) 内 的 数据 类 型 也 需要 加 以 考虑 。 通 常 ， 要 记录 “最 后 
写 日 期 ”， 以 提供 给 用 户 ， 并 确定 是 否 需要 备份 给 定 文件 。 有 些 系统 也 保存 “最 后 访问 日 
期 "， 以 便 用 户 可 以 确定 文件 的 最 后 读 取 时 间 。 由 于 这 个 信息 ,每 当 读 取 文件 时 ， 目 录 结 构 
的 一 个 字段 必须 被 更 新 。 这 意味 着 将 相应 块 读 和 内存， 修改 相应 部 分 ， 再 将 该 块 写 到 磁盘 ， 
因为 磁盘 操作 是 以 块 (GR) 为 单位 来 进行 的 。 因 此 ， 每 当 文件 打开 以 便 读 取 时 ， 它 的 目录 
条 目 也 必须 读 出 和 写 人 。 对 于 经 常 访 问 的 文件 ， 这 种 要 求 是 低 效 的 ; 因此 ， 在 设计 文件 系统 
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时 ， 必 须 平衡 优点 和 性 能 代价 。 通 常 ， 与 文件 关联 的 每 个 数据 项 都 需要 加 以 研究 ， 以 考虑 它 
对 效率 和 性 能 的 影响 。 

例如 ， 考 虑 用 于 访问 数据 的 指针 大 小 如 何 影响 效率 。 大 多 数 系统 在 整个 操作 系统 中 采用 
32 位 或 64 位 的 指针 。 采 用 32 位 指针 将 文件 的 大 小 限制 为 2 或 4GB。 采 用 64 位 指针 允许 
非常 大 的 文件 ,但 是 64 位 指针 需要 更 多 空间 来 存储 。 因 此 ， 分 配 和 可 用 空间 管理 方法 〈 链 
RRI FF) 使 用 更 多 磁盘 空间 。 

选择 指针 大 小 或者， 事实 上 ， 操 作 系统 内 的 任何 固定 分 配 大 小 ) 的 困难 之 一 是 : 需要 
考虑 技术 变化 影响 。 考 虑 一 下 早期 IBM PC XT 有 一 个 10MB 硬盘 ， 其 MS-DOS 文件 系统 
只 支持 32MB。( 每 个 FAT 条 目 为 12 位 ， 指 向 大 小 为 8KB AR.) 随 着 磁盘 容量 的 增加 ， 较 
大 的 磁盘 必须 分 成 32MB 的 分 区 ， 因 为 文件 系统 不 能 跟踪 超过 32MB 以 外 的 块 。 随 着 超过 
100MB 容量 硬盘 的 普及 ，MS-DOS 的 磁盘 数据 结构 和 算法 必须 加 以 修改 ， 以 便 支 持 更 大 的 
文件 系统 。( 每 个 FAT 条 目 首先 扩展 到 16 位 ， 然 后 扩展 到 32 位 。) 最 初 的 文件 系统 的 决定 是 
基于 效率 原因 ; 然而 ， 随 着 MS-DOS 版 本 4 的 出 现 ， 数 百 万 计算 机 用 户 必须 很 不 方便 地 切 
换 到 新 的 、 更 大 的 文件 系统 。Solaris 的 ZFS 文件 系统 采用 128 位 的 指针 ， 这 在 理论 上 来 说 
永远 也 不 需要 扩展 。( 使 用 原子 级 别 存储 、 容 量 为 2” 字 节 的 设备 质量 ,最 少 272 万 亿 千 克 
左右 。) 

作为 另 一 个 例子 ， 考 虑 Solaris 操作 系统 的 发 展 。 最 初 ， 许 多 数据 结构 都 是 定 长 的 ， 在 
系统 启动 时 已 分 配 。 这 些 结构 包括 进程 表 和 打开 文件 表 。 当 进程 表 已 满 时 ， 就 不 能 再 创建 更 
多 的 进程 。 当 文件 表 已 满 时 ， 就 不 能 再 打开 更 多 的 文件 。 系 统 会 无 法 向 用 户 提 供 服 务 。 这 些 
表格 大 小 的 增加 只 能 重新 编译 内 核 并 重新 启动 系统 。 对 于 Solaris 的 后 期 版 本 ， 几 乎 所 有 的 
内 核 结构 都 是 动态 分 配 ， 取 消 了 系统 性 能 的 这 些 人 为 限制 。 当 然 ， 操 作 这 些 表 的 算法 会 更 加 
复杂 ， 并 且 操 作 系统 会 有 点 慢 ， 因 为 它 必 须 动态 地 分 配 和 释放 这 些 表 条 目 ; 但 是 为 了 更 为 通 
用 的 功能 ， 这 种 代价 也 是 正常 的 。 


11.6.2 ”性 能 


即使 选择 了 基本 的 文件 系统 算法 ,仍然 能 够 从 多 种 方式 来 提高 性 能 。 正 如 第 13 章 将 会 
讨论 的 ， 大 多 数 磁盘 控制 器 都 包含 本 地 内 存 ， 以 形成 足够 大 的 板 载 高 速 缓存 来 同时 存储 整个 
磁道 。 一 旦 进行 了 寻 道 ， 就 从 磁头 所 处 的 扁 区 开始 (以 缓解 延迟 时 间 ) 将 整个 磁道 读 到 磁盘 
缓存 。 然 后 ， 磁 盘 控 制 器 将 任何 扇 区 请 求 传 到 操作 系统 。 在 数据 块 从 磁盘 控制 器 调 到 内 存 
后 ， 操 作 系统 就 可 缓存 它 。 

有 些 系统 有 一 块 独 立 内 存 以 用 作 缓 冲 区 缓存 (buffer cache)， 假 设 其 中 的 块 将 很 快 再 次 
使 用 。 其 他 系统 采用 页 面 缓存 ( page cache) 来 缓存 文件 数据 。 页 面 缓存 采用 虚拟 内 存 技术 ， 
将 文件 数据 按 页 面 而 不 是 按 面向 文件 系统 的 块 来 缓存 。 采 用 虚拟 地 址 来 缓存 文件 数据 ， 与 采 
用 物理 磁盘 块 来 缓存 相 比 ， 更 为 高 效 ， 因 为 访问 接口 是 通过 虚拟 内 存 而 不 是 文件 系统 。 多 个 
系统 ， 包 括 Solaris, Linux 和 Windows， 采 用 页 面 缓存 来 缓存 进程 页 面 和 文件 数据 。 这 称 为 
统一 虚拟 内 存 (unified virtual memory ) o 

UNIX fil Linux 的 有 些 版 本 提供 了 统一 缓冲 区 缓存 ( unified buffer cache)。 为 了 说 明 
统一 缓冲 区 缓存 的 优点 ， 考 虑 文件 打开 和 访问 的 两 种 方法 。 一 种 方法 是 采用 内 存 映 射 ( 9.7 
节 ); 另 一 种 方法 是 采用 标准 系统 调用 read() 和 write()。 如 果 没 有 统一 缓冲 区 缓存 ， 则 
情况 会 类 似 于 图 11-11。 这 里 ， 系 统 调 用 read() 和 write() 会 通过 缓冲 区 缓存 。 然 而 ， 内 
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存 映射 调用 需要 使 用 两 个 缓存 ， 即 页 面 缓存 和 缓冲 区 缓存 。 内 存 映 射 先 从 文件 系统 中 读 入 磁 
盘 块 ， 并 存储 在 缓冲 区 缓存 中 。 因 为 虚拟 内 存 系统 没有 缓冲 区 缓存 的 接口 ， 所 以 缓冲 区 缓存 
内 的 文件 内 容 必 须 复制 到 页 面 缓存 。 这 种 情况 称 为 双 缓 存 (double caching)， 需 要 两 次 缓存 
文件 系统 的 数据 。 这 不 仅 浪费 内 存 ， 而 且 浪费 重要 的 CPU 和 IO 时 间 (用 于 在 系统 内 存 之 
间 进 行 额 外 的 数据 移动 )。 另 外 ， 这 两 种 缓存 之 间 的 不 一 致 性 也 会 导致 文件 破坏 。 相 反 ， 当 
有 了 统一 缓冲 区 缓存 时 ， 内 存 映射 与 read() Ml write() 系统 调用 都 采用 同样 的 页 面 缓存 。 
这 有 利于 避免 双 缓 存 ， 并 允许 虚拟 内 存 系 统 来 管理 文件 系统 数据 。 这 种 统一 缓冲 区 缓存 如 


图 11-12 所 示 。 
使 用 read() 和 
write() 的 LO 





内 存 映 射 IO 





图 11-11 缺少 统一 缓冲 区 缓存 的 1/0 图 11-12 采用 了 统一 缓冲 区 缓存 的 IO 


无 论 是 否 缓存 磁盘 块 或 页 面 (或 两 者 )，LRU (9.4.4 节 ) 似乎 是 个 合理 并 通用 的 算法 ， 
以 用 于 块 或 页 面 蔡 换 。 然 而 ，Solaris 的 页 面 缓 存 算法 演变 揭示 了 算法 选择 的 困难 。Solaris 允 
许 进程 和 页 面 缓存 共享 未 使 用 的 内 存 。 对 于 为 进程 分 配 页面 和 为 页 面 缓存 分 配 页 面 ，Solaris 
2.5.1 的 之 前 版 本 并 不 区 分 。 因 此 ， 执 行 大 量 IO 操作 的 系统 会 将 大 多 数 可 用 内 存 用 于 页 面 
缓存 。 由 于 很 高 频率 的 IO， 当 空闲 内 存 不 足 时 ， 页 面 扫 描 程序 ( 9.10.2 节 ) 从 进程 中 而 不 
是 从 页 面 缓存 中 回收 页 面 。Solaris 2.6 和 Solaris 7 可 选 地 执行 优先 调 页 ， 即 页 面 扫 撒 程序 赋 
予 进程 页 面 比 页 面 缓存 更 高 的 优先 级 。Solaris 8 在 进程 页 面 和 文件 系统 页 面 缓存 之 间 增 加 了 
固定 限制 ， 从 而 阻止 一 方 将 另 一 方 赶 出 内 存 。Solaris 9 和 Solaris 10 为 了 最 大 化 内 存 使 用 和 
最 小 化 抖动 ， 又 修改 了 算法 。 

能 够 影响 IO 性 能 的 另 一 个 问题 是 ， 文 件 系统 的 写 人 是 同步 的 还 是 异步 的 。 同 步 写 
(synchronous write) 按 磁 盘子 系统 接收 顺序 来 进行 ， 并 不 缓冲 写 和 人 。 因 此 ， 调 用 程序 必须 
等 待 数据 写 到 磁盘 驱动 器 ， 再 继续 。 对 于 异步 写 ( asynchronous write)， 将 数据 先 存在 缓存 
后 ， 就 将 控制 返回 给 调用 者 。 大 多 数 写 是 异步 的 。 然 而 ， 元 数据 写 ， 与 其 他 一 样 ， 可 以 是 同 
步 的 。 操 作 系 统 经 常 允 许 系统 调用 open 包括 一 个 标志 ， 以 允许 进程 请 求 写 人 同步 执行 。 例 
如 ， 数 据 库 的 原子 事务 使 用 这 种 功能 ， 以 确保 数据 按 给 定 顺序 存 人 稳定 存储 。 

有 的 系统 根据 文件 访问 类 型 采用 不 同 的 替换 算法 ， 以 便 优 化 页 面 缓存 。 文 件 的 顺序 读 写 
不 应 采用 LRU 页 面 替换 ， 因 为 最 近 使 用 的 页 面 最 后 才 会 使 用 或 根本 不 用 。 相 反 ， 顺 序 访 问 
可 以 通过 采用 称 为 随后 释放 和 预先 读 取 的 技术 来 加 以 优化 。 随 后 释放 ( free-behind) Æ: 一 
旦 请 求 下 一 个 页 面 ， 就 从 缓冲 区 中 删除 一 个 页 面 。 以 前 的 页 面 可 能 不 再 使 用 ， 并且 浪费 缓冲 
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区 空间 。 对 于 预先 读 取 ( read-ahead)， 请 求 的 页 面 和 一 些 之 后 的 页 面 可 以 一 起 读 取 并 缓存 。 
这 些 页 面 可 能 在 当前 页 面 处 理 之 后 被 请 求 。 从 磁盘 中 一 次 性 地 读 取 这 些 数 据 并 加 以 缓存 ， 节 
省 了 大 量 的 时 间 。 人 们 可 能 认为 ， 在 多 道 程序 系统 上 ， 控 制 器 的 磁道 缓存 会 代替 这 种 需要 。 
然而 ， 由 于 从 磁道 缓存 到 内 存 的 许多 小 传输 的 延迟 长 和 开销 高 ， 执 行 预先 读 取 仍然 有 利 。 

页 面 缓存 、 文 件 系统 和 磁盘 驱动 程序 有 着 有 趣 的 联系 。 当 数据 写 到 磁盘 文件 时 ， 页 面 先 
放 在 缓存 中 ， 磁 盘 驱动 程序 根据 磁盘 地 址 对 输出 队列 进行 排序 。 这 两 个 操作 允许 磁盘 驱动 程 
序 最 小 化 磁盘 头 寻 道 ， 并 根据 磁盘 旋转 来 优化 写 数据 。 除 非 要 求 同 步 写 ， 进 程 写 磁盘 只 是 写 
到 缓存 ， 系 统 在 方便 时 异步 地 将 数据 写 到 磁盘 。 用 户 进 程 看 到 写 非 常 快 。 当 从 磁盘 中 读 取 数 
据 时 ， 块 IO 系统 会 执行 一 定 的 提前 读 ; 然而 ， 写 人 比 读 取 更 加 接近 异步 。 因 此 ， 对 于 大 的 
传输 ， 通 过 文件 系统 输出 到 磁盘 通常 比 输入 更 快 ， 这 与 直觉 相反 。 


11.7 hE 


文件 和 目录 保存 在 内 存 和 磁盘 上 ， 并 且 必 须 注意 确保 系统 故障 不 能 导致 数据 丢失 或 数据 
不 一 致 。 本 节 处 理 这 些 问 题 ; 也 会 考虑 系统 如 何 从 这 些 故 障 中 恢复 。 

系统 前 省 可 能 导致 磁盘 文件 系统 数据 结构 (如 目录 结构 、 空 闲 块 指针 和 空闲 FCB (File 
Control Block) 指针 ) 的 不 一 致 。 许 多 文件 系统 原 处 修改 这 些 结构 。 一 个 典型 操作 ， 如 创建 
一 个 文件 ， 可 能 涉及 磁盘 文件 系统 的 许多 结构 修改 。 目 录 结 构 被 修改 ，FCB 被 分 配 ， 数 据 块 
被 分 配 ， 所 有 这 些 块 的 可 用 计数 被 递减 。 这 些 修改 可 能 由 于 崩溃 而 中 断 ， 并 且 导 致 这 些 结构 
的 不 一 致 。 例 如 ， 空 闲 FCB 计数 可 能 表示 FCB 已 分 配 , 但 目录 结构 可 能 不 指向 FCB。 这 个 
问题 的 组 合 是 缓存 ， 以 便 操作 系统 优化 VO 性 能 。 有 些 修改 可 以 直接 写 到 磁盘 ， 而 其 他 的 可 
能 被 缓存 。 如 果 缓 存 更 改 在 崩溃 发 生 之 前 不 能 到 达 磁 盘 ， 则 可 能 损坏 更 多 。 

除了 骨 溃 ， 文 件 系统 实现 的 错误 、 磁 盘 控制 器 ， 甚 至 用 户 应 用 程序 都 能 损坏 文件 系统 。 文 
件 系统 具有 不 同 的 处 理 损 坏 的 方法 ， 它 取决 于 文件 系统 的 数据 结构 和 算法 。 下 面 讨论 这 些 问题 。 


11.7.1 一 致 性 检查 


无 论 损坏 的 原因 ， 文 件 系统 必须 检测 问题 ， 并 再 纠正 它们 。 对 于 检测 ， 每 个 文件 系统 
的 所 有 元 数据 的 扫描 可 以 肯定 或 否定 系统 的 一 致 性 。 不 过 ， 这 种 扫描 可 能 需要 数 分 钟 或 数 小 
时 ， 而 且 在 每 次 系统 启动 时 都 应 进行 。 或 者 ， 文 件 系统 可 能 在 文件 系统 的 元 数据 中 记录 其 状 
态 。 在 任何 元 数据 修改 的 开始 ， 设 置 状 态 位 以 表示 元 数据 正在 修改 。 如 果 所 有 元 数据 的 更 新 
成 功 完成 ， 则 文件 系统 可 以 清除 位 。 然 而 ， 如 果 状 态 位 保持 置 位 ， 则 运行 一 致 性 检查 程序 。 

一 致 性 检查 程序 ( consistency checker)， 如 UNIX 的 系统 程序 fsck， 比 较 目 录 结 构 的 数 
据 和 磁盘 的 数据 块 ， 并 且 试 图 修复 发 现 的 不 一 致 。 分 配 和 空闲 空间 管理 的 算法 决定 了 检查 程 
序 能 够 发 现 什 么 类 型 的 问题 ， 及 其 如 何 成 功 修复 问题 。 例 如 ， 如 果 采 用 链接 分 配 ， 从 任何 块 
到 其 下 一 个 块 有 链接 ， 则 从 数据 块 来 重建 整个 文件 ， 并 且 重 建 目录 结构 。 相 比 之 下 ， 索 引 分 
配 系统 的 目录 条 目的 损坏 可 能 是 灾难 性 的 ， 因 为 数据 块 彼此 并 不 了 解 。 出 于 这 个 原因 ， 在 读 
时 ，UNIX 缓存 目录 条 目 ; 但 是 导致 空间 分 配 或 其 他 元 数据 更 改 的 任何 写 是 同步 进行 的 ， 并 
且 在 相应 数据 块 写 人 之 前 。 当 然 ， 如 果 同 步 写 因 系统 谣 溃 而 中 断 ， 则 问题 仍然 可 能 出 现 。 


11.7.2 基于 日 志 的 文件 系统 
计算 机 科学 家 经 常 发 现 ， 最 初 用 于 一 个 领域 的 算法 和 技术 在 其 他 领域 同样 有 用 。 数 据 库 
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的 基于 日 志 的 恢复 算法 就 是 这 样 的 。 这 些 日 志 算法 已 成 功 应 用 于 一 致 性 检查 的 问题 。 最 终 的 
实现 是 称 为 基于 日 志 的 面向 事务 (log-based transaction-oriented) (或 日 志 记 录 (journaling) ) 
的 文件 系统 。 

请 注意 ， 通 过 上 节 讨 论 的 一 致 性 检查 方法 ， 基 本 允许 结构 破坏 并 且 在 恢复 时 修复 它们 。 
然而 ， 这 个 方法 有 多 个 问题 。 一 个 是 ， 不 一 致 可 能 是 无 法 修复 的 。 一 致 性 检查 可 能 无 法 恢复 
结构 ， 导 致 文件 和 甚至 整个 目录 的 丢失 。 一 致 性 检查 可 能 需要 人 为 干预 来 解决 冲突 ; 如 果 没 
有 人 员 可 用 ， 这 是 不 方便 的 。 直 到 我 们 告诉 它 如 何 继续 ， 系 统 可 能 保持 不 可 用 。 一 致 性 检查 
还 需要 系统 时 间 和 时 钟 时 间 。 检 查 数 TB 的 数据 ， 可 能 需要 数 个 小 时 的 时 间 。 

这 个 问题 的 解决 方法 是 ， 应 用 基于 日 志 恢复 技术 到 文件 系统 的 元 数据 更 新 。NTFS 和 
Veritas 文件 系统 采用 这 种 方法 ，Solaris UFS 的 新 版 也 采用 了 。 事 实 上 ， 这 正 为 许多 操作 系 
统 所 采用 。 

从 根本 上 说 ， 所 有 元 数据 修改 按 顺 序 写 到 日 志 。 执 行 特定 任务 的 一 组 操作 称 为 事务 
(transaction), 一旦 这 些 修 改写 到 这 个 日 志 ， 就 可 认为 已 经 提交 ， 系 统 调用 就 可 返回 到 用 户 
进程 以 便 允 许 继续 执行 。 同 时 ， 这 些 日 志 条 目 对 真实 文件 系统 结构 进行 重 放 。 随 着 更 改 ， 通 
过 指针 更 新 表示 哪些 操作 已 经 完成 和 哪些 仍然 没有 完成 。 当 整个 提交 事务 已 经 完成 ， 就 可 从 
日 志文 件 中 删除 它 〈 日 志文 件 实际 上 是 个 环形 缓冲 区 )。 当 环形 缓冲 区 (circular buffer) 写 
到 空间 末尾 的 时 候 ， 会 从 头 继续 ， 从 而 覆盖 掉 以 前 的 旧 值 。 我 们 不 希望 环形 缓冲 区 覆盖 掉 还 
没有 保存 好 的 数据 ， 因 此 这 种 情形 应 被 避免 。 日 志 可 能 是 文件 系统 的 一 个 单独 的 部 分 ， 甚 
至 在 单独 的 磁盘 上 。 采 用 分 开 读 / 写 磁头 可 以 减少 磁头 竞争 和 寻 道 时 间 ， 会 更 有 效 但 也 更 
复杂 。 

如 果 系 统 崩 演 ， 日 志文 件 可 能 包含 零 个 或 多 个 事务 。 它 包含 的 任何 事务 虽然 已 经 由 操作 
系统 提交 了 ,但 是 还 没有 完成 到 文件 系统 ， 所 以 现在 必须 完成 。 交 易 可 以 从 指针 处 执行 ， 直 
到 工作 完成 ， 因 此 文件 系统 结构 仍 能 保持 一 致 。 唯 一 可 能 出 现 的 问题 是 事务 被 中 断 ， 即 在 系 
统 崩 溃 之 前 它 还 没有 被 提交 。 对 文件 系统 所 做 的 任何 修改 必须 撤销 ， 再 次 保持 文件 系统 的 一 
致 性 。 这 种 恢复 在 前 溃 后 就 需要 了 ， 从 而 消除 任何 一 致 性 检查 的 问题 。 

利用 磁盘 元 数据 更 新 日 志 的 一 个 好 处 是 ， 这 些 更 新 要 快 于 磁盘 数据 结构 的 直接 更 新 。 原 
因 是 ， 顺 序 IO 的 性 能 要 好 于 随机 IO 的 。 低 效 的 同步 随机 元 数据 写 人 变 成 高 效 的 同步 顺序 
写 到 基于 日 志文 件 系统 的 记录 区 域 。 这 些 修改 再 通过 随机 写 异 步 回放 到 适当 数据 结构 。 总 的 
结果 是 ， 提 高 了 面向 元 数据 操作 (如 文件 创建 和 文件 删除 ) 的 性 能 。 


11.7.3 ”其 他 解决 方法 


网 络 家 电 的 WAFL 文件 系统 和 Solaris 的 ZFS 文件 系统 ， 采 用 另 一 种 一 致 性 检查 。 这 些 
系统 从 不 采用 新 数据 来 覆盖 块 。 相 反 ， 事 务 将 所 有 数据 和 元 数据 更 改写 到 新 块 。 当 事务 完 
成 时 ， 指 向 这 些 块 旧 版 的 元 数据 结构 被 更 新 到 指向 这 些 新 块 。 然 后 ， 文 件 系 统 可 以 删除 旧 
的 文件 指针 和 旧 的 块 ， 以 便 可 以 重用 。 如 果 保 留 旧 的 指针 和 块 ， 则 创建 了 快照 ( snapshot) ; 
这 个 快照 是 在 最 后 更 新 之 前 的 文件 系统 的 一 个 视图 。 如 果 指 针 更 新 是 原子 的 ， 则 该 解决 方 
案 应 该 不 需要 一 致 性 检查 。 然 而 ，WAFL 文件 系统 确实 有 一 个 一 致 性 检查 程序 ， 有 些 故 障 
情况 仍然 可 能 导致 元 数据 的 损坏 。( 有 关 WAFL 文件 系统 的 详细 信息 请 参见 11.9 节 的 文件 
系统 。) 

ZFS 采用 更 为 创新 的 方法 来 实现 磁盘 一 致 性 。 就 像 WAFL 一 样 ， 它 从 不 会 覆盖 块 。 然 
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mi, ZFS 更 进一步 ， 它 提供 所 有 元 数据 和 数据 块 的 校 验 和 。 这 个 解决 方案 (与 RAID 结合 使 用 ) 
确保 数据 始终 正确 。 因 此 ，ZFS 没有 一 致 性 检 程 序 。( 关 于 ZFS 的 更 多 细节 请 参见 12.7.6 节 ) 


11.7.4 备份 和 恢复 


磁盘 有 时 故障 ， 所 以 必须 注意 确保 因 故 障 而 丢失 的 数据 不 会 永远 丢失 。 为 此 ， 可 以 采用 
系统 程序 将 磁盘 数据 备份 ( backup) 到 另 一 存储 设备 ， 如 磁带 或 其 他 硬盘 。 单 个 文件 或 整个 
磁盘 的 恢复 ， 只 需要 从 备份 中 恢复 (restore) 数据 就 可 以 了 。 

为 了 最 大 限度 地 减少 所 需 复制 ， 可 以 利用 每 个 文件 的 目录 条 目 信 息 。 例 如 ， 如 果 备 份 程 
序 知道 一 个 文件 上 次 何 时 备份 ， 并 且 目 录 内 该 文件 上 次 写 的 日 期 表明 该 文件 从 上 次 备份 以 来 
并 未 改变 ， 则 该 文件 不 需要 再 次 复制 。 一 个 典型 的 备份 计划 可 能 如 下 : 

e 第 1 天 : 将 所 有 磁盘 文件 复制 到 备份 介质 。 这 称 为 完全 备份 (full backup). 

e 第 2 天 : 将 所 有 从 第 1 天 起 更 改 的 文件 复制 到 备份 介质 。 这 称 为 增 量 备份 

(incremental backup ) 。 


© 第 3 天 : 将 所 有 从 第 2 天 起 更 改 的 文件 复制 到 备份 介质 。 


© BNR: 将 所 有 从 第 N-1 天 起 更 改 的 文件 复制 到 备份 介质 。 再 返回 到 第 1 天 。 

新 的 循环 可 以 将 其 备份 写 到 先前 的 或 新 的 备份 介质 集合 上 。 

采用 这 种 方法 ， 通 过 从 完全 备份 上 开始 恢复 ， 并 根据 增 量 备份 不 断 更 新 ， 可 以 恢复 整 
个 磁盘 。 当 然 ，N 的 值 越 大 ， 因 完全 恢复 所 需 读 和 人 媒介 的 数量 则 越 大 。 这 种 备份 循环 的 一 个 
额外 优点 是 ， 对 于 在 循环 期 间 内 意外 删除 的 任何 文件 ， 只 要 从 前 一 天 的 备份 中 恢复 删除 的 
文件 。 

循环 长 度 是 ， 由 所 需 备份 介质 的 数量 和 恢复 多 少 天 的 数据 的 平衡 。 为 了 减少 恢复 所 需 读 
取 的 磁带 数量 ， 一 种 选择 是 执行 一 次 完全 备份 ， 然 后 每 天 备份 从 完全 备份 以 来 更 改 的 所 有 文 
件 。 这 样 ， 通 过 完全 备份 和 所 需 的 最 近 增 量 备 份 ， 而 无 需 其 他 增 量 备 份 ， 可 以 进行 恢复 。 这 
样 的 缺点 是 ， 每 天 修改 的 文件 越 多 ， 每 次 增 量 备份 需要 更 多 文件 和 备份 媒介 。 

用 户 可 能 在 文件 损坏 很 久 以 后 ， 才 发 现 数据 丢失 或 损坏 。 因 此 ， 通 常 需要 不 时 地 进行 完 
全 备份 ， 并 且 永 远 保 存 。 一 个 好 主意 是 ， 将 这 些 永 久 备份 与 常规 备份 分 开 保存 以 防止 危害 ， 
如 失火 会 损坏 计算 机 和 所 有 备份 。 如 果 备 份 周期 重用 备份 媒介 ， 则 必须 注意 不 要 过 多 次 地 使 
用 备份 媒介 ; 如 果 备 份 媒介 磨损 ， 则 可 能 不 能 从 备份 中 恢复 数据 。 


11.8 NFS 


网 络 文件 系统 已 经 普及 。 它 们 通常 与 客户 机 系统 的 整体 目录 结构 和 界面 集成 起 来 。NFS 
是 一 个 很 好 的 、 广 泛 使 用 的 、 实 现 不 错 的 客户 机 - 服务 器 的 网 络 文件 系统 的 例子 。 这 里 ， 通 
过 以 它 为 例 ， 讨 论 网 络 文件 系统 的 实现 细节 。 

NFS 是 软件 的 实现 和 规范 ， 用 于 跨 LAN (甚至 WAN) 访问 远程 文件 的 系统 。NFS 是 
ONC+ 的 一 部 分 ， 大 多 数 UNIX 厂商 和 一 些 PC 操作 系统 都 提供 支持 。 这 里 所 述 的 实现 是 
Solaris 操作 系统 的 一 部 分 ，Solaris 是 基于 UNIX SVR4 的 改进 版 。 它 采用 了 TCP/IP 或 UDP/ 
IP 协议 (根据 互连网 络 而 定 )。 在 有 关 NFS 的 描述 中 ， 规 范 和 实现 交织 一 起 。 每 当 需 要 细节 
时 ， 参 考 Solaris 实现 ; 每 当 讨 论 一 般 原 理 时 ， 就 只 针对 规范 。 

NFS 有 多 个 版 本 ， 版 本 4 为 最 新 版 。 这 里 ， 所 讨论 的 版 本 3 为 最 常见 的 部 署 。 
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11.8.1 概述 


NFS 将 一 组 互 连 的 工作 站 视 作 一 组 具有 独立 文件 系统 的 独立 机 器 。 目 的 是 ， 人 允许 透明 
(根据 显 式 请 求 ) 共享 这 些 文件 系统 。 共 享 是 基于 客户 机 - 服务 器 关系 的 。 每 台 机 器 可 能 是 ， 
而 且 往往 ， 既 是 客户 机 也 是 服务 器 。 任 何 两 台 机 器 之 间 人 允许 共享 。 为 了 确保 机 器 独立 ， 远 程 
文件 系统 的 共享 只 影响 客户 机 而 不 是 其 他 机 器 。 

为 了 透明 访问 一 台 特 定 机 器 (如 M1 ) 的 远程 目录 ， 这 人 台 机 器 的 客户 机 必须 首先 执行 安 
装 (mount) 操作 。 这 个 操作 的 语义 是 ， 将 远程 目录 安装 到 本 地 文件 系统 的 目录 上 。 一旦 完 
成 了 安装 操作 ， 安 装 目录 看 起 来 像 本 地 文件 系统 的 子 树 ， 并 取代 了 本 地 目录 的 原来 子 树 。 本 
地 目录 就 成 为 新 安装 目录 的 根 的 名 称 。 将 远程 目录 作为 安装 操作 参数 的 规范 不 能 透明 进行 ; 
必须 提供 远程 目录 的 位 置 (或 主机 名 )。 然 而 ， 从 此 ， 机 器 MI 的 客户 可 以 按 完 全 透明 的 方 
式 来 访问 远程 目录 的 文件 。 

为 了 说 明文 件 系统 安装 ， 考 虑 一 下 如 图 11-13 所 示 的 文件 系统 ， 其 中 三 角形 表示 感 兴趣 
的 目录 子 树 。 图 中 有 三 台 机 器 U、S1 和 S2 的 三 个 独立 文件 系统 。 这 时 ， 每 台 机 器 只 可 访问 
本 地 文件 系统 。 图 11-14a 显示 了 将 S1:/usr/shared 安装 到 U:/usr/1local 的 效果 。 这 个 
图 说 明了 机 器 U 的 用 户 看 到 的 文件 系统 。 当 完成 安装 后 ， 可 以 通过 前 缀 /usr/local/dirt 
来 访问 目录 dirt 的 任何 文件 。 该 机 器 的 原来 目录 /usr/local 不 再 可 见 。 


U: U 
U SI: S2 
usr usr 
usr usr usr 
local local 
local shared dir2 
dirl dirl 
dirl = 
A = 
— a) 一 般 安装 b) 级 联 安装 
11-13. 三 个 独立 的 文件 系统 11-14 NFS 的 安装 


根据 访问 权限 的 认可 ， 任 何 文件 系统 或 任何 文件 系统 内 的 目录 ， 可 以 远程 安装 到 任何 本 
地 目录 。 无 盘 工 作 站 甚至 可 从 服务 器 那里 安装 根 目 录 。 有 的 NFS 实现 也 允许 级 联 安装 。 也 
就 是 说 ， 可 以 将 一 个 文件 系统 安装 到 另 一 个 远程 安装 的 文件 系统 ， 而 不 是 本 地 的 。 一 个 机 顺 
只 受 限于 它 本 身 调用 的 安装 。 通 过 安装 远程 文件 系统 ， 客 户 不 能 访问 以 前 文件 系统 碰巧 安装 
的 其 他 文件 系统 。 因 此 ， 安 装机 制 并 不 具有 传递 性 。 

图 11-14b 说 明了 级 联 安装 。 该 图 说 明了 安装 S2:/usr/dir2 到 U:/usr/localVdirl 的 
结果 ， 而 /usr/local/dirl 远程 安装 了 S1 的 目录 。 用 户 可 以 使 用 前 缀 /usr/loca/dir1 
访问 S2 的 dir2 上 的 文件 。 如 果 将 共享 文件 系统 安装 到 网 络 上 的 所 有 机 器 的 用 户主 目录 上 ， 
则 用 户 可 以 登录 到 任何 工作 站 ， 并 获得 其 主 环境 。 这 种 属性 允许 用 户 迁 移 。 

NFS 设计 目标 之 一 是 ， 支 持 由 不 同 机 器 、 操 作 系 统 和 网 络 架 构 组 成 的 异 构 环 境 。NFS 
规范 与 这 些 媒介 独立 无 关 。 通 过 在 两 个 与 实现 独立 的 接口 之 间 采 用 基于 外 部 数据 表示 
(XDR) 的 RPC 原 语 ， 可 以 实现 这 种 独立 性 。 因 此 ， 如 果 系 统 的 异 构 机 器 和 文件 系统 正确 地 
连接 到 NFS， 不 同类 型 的 文件 系统 可 以 本 地 和 远程 安装 。 
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NFS 规范 区 分 两 种 服务 : 一 是 由 安装 机 制 提供 的 服务 ， 二 是 真正 远程 文件 访问 服务 。 
因此 ， 为 了 实现 这 些 服 务 有 两 个 单独 的 协议 : 安装 协议 和 远程 文件 访问 协议 ， 即 NFS 协 
iM (NFS protocol)。 协 议 是 用 RPC 来 表示 的 ， 而 这 些 RPC 是 用 于 实现 透明 远程 文件 访问 的 
基础 。 


11.8.2 ”安装 协议 


安装 协议 (mount protocol) 在 客户 机 和 服务 器 之 间 建 立 初始 逻辑 连接 。 在 Solaris 中 ， 
每 台 机 器 在 内 核 外 都 有 一 个 服务 器 进程 来 执行 这 个 协议 功能 。 

安装 操作 包括 需要 安装 的 远程 目录 的 名 称 和 存储 它 的 服务 器 的 名 称 。 安 装 请 求 映 射 到 相 
应 的 RPC， 并 且 转 发 到 特定 服务 器 运行 的 安装 服务 程序 。 服 务 器 维护 一 个 输出 列表 ( export 
list)， 用 于 列 出 可 以 安装 的 本 地 文件 系统 ， 以 及 允许 安装 它们 的 机 器 名 称 。( 在 Solaris E, 
这 个 列表 为 /etc/dfs/dfstab， 它 只 能 通过 超级 用 户 编辑 )。 该 文件 也 可 以 包括 访问 权限 ， 
如 只 读 。 为 了 简化 维护 输出 表 和 安装 表 ， 可 以 采用 分 布 式 命名 方案 来 存储 这 些 信息 ， 以 供 客 
户 使 用 。 

回想 一 下 ， 导 出 文件 系统 的 任何 目录 可 以 由 授权 机 器 来 远程 安装 。 组 件 单 元 就 是 这 样 
的 目录 。 当 服务 器 收 到 符合 导出 列表 的 安装 请 求 时 ， 它 就 返 给 客户 机 一 个 文件 句柄 ， 以 作为 
主键 来 进一步 访问 已 安装 文件 系统 内 的 文件 。 该 文件 句柄 包括 ， 服 务 器 区 分 它 所 存储 的 单个 
文件 的 所 有 信息 。 在 UNIX 术语 中 ， 每 个 文件 句柄 包括 一 个 文件 系统 标识 符 和 一 个 索引 节点 
号 ， 以 标识 已 安装 文件 系统 内 的 确切 安装 目录 。 

服务 器 还 维护 由 客户 机 及 对 应 当前 安装 目录 组 成 的 一 个 列表 。 该 列表 主要 用 于 管理 目 
的 ， 例 如 ， 在 服务 器 将 要 关机 时 通知 所 有 客户 。 只 有 增加 和 删除 这 个 列表 内 的 条 目 ， 安 装 协 
议 才 能 影响 服务 器 状态 。 

通常 ， 系 统 具 有 静态 安装 预 配置 ， 它 是 在 启动 时 建立 的 (在 Solaris 中 为 /etc/ 
vfstab); 然而 ， 这 种 安排 可 以 修改 。 除 了 实际 的 安装 步骤 外 ， 安 装 协 议 还 包括 几 个 其 他 步 
又 ， 如 印 载 和 返回 输出 列表 。 


11.8.3 NFS 协议 


NFS 协议 为 远程 文件 提供 了 一 组 RPC 操作 。 这 些 程序 包括 以 下 操作 : 

o 搜索 目录 内 的 文件 

e 读 取 一 组 目录 条 目 

o 操作 链接 和 目录 

© 访问 文件 属性 

e 读 写 文件 
只 有 在 远程 目录 的 句柄 建立 之 后 ， 才 可 以 进行 这 些 操作 。 

打开 与 关闭 操作 的 省 略 是 故意 的 。NES 服务 器 的 一 个 突出 特点 是 无 状态 的 。 服 务 器 并 
不 维护 客户 机 从 一 个 访问 到 另 一 个 访问 的 信息 。 服 务 器 没有 与 UNIX 的 打开 文件 表 和 文件 结 
构 相 似 。 因 此 ， 每 个 请 求 必须 提供 整套 参数 ， 包 括 唯一 文件 标识 符 和 用 于 特定 操作 的 文件 内 
的 绝对 偏 移 。 这 种 设计 坚固 ; 不 需要 采用 特别 措施 ， 以 恢复 月 汝 后 的 服务 器 。 为 此 ， 文 件 操 
作 必 须 是 寡 等 的 ; 也 就 是 说 ， 同 一 操作 的 多 次 执行 与 单 次 执行 具有 同样 的 效果 。 为 了 实现 徊 
等 ， 每 个 NFS 请 求 都 有 一 个 序列 号 ， 以 允许 服务 器 确定 一 个 请 求 是 否 是 重复 的 或 缺失 的 。 
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维护 以 上 所 述 的 客户 机 列表 似乎 违反 了 服务 器 的 无 状态 。 然 而 ， 这 种 列表 对 于 客户 机 或 
服务 器 的 正确 操作 至 关 重要 ， 因 此 当 服 务 器 月 演 后 它 不 需要 恢复 。 因 此 ， 它 可 能 包括 不 一 致 
的 数据 ， 并 且 只 能 作为 提示 。 

无 状态 服务 器 方法 的 进一步 暗示 和 RPC 同步 的 结果 是 ， 修 改 的 数据 (包括 间接 和 状态 
的 块 ) 必须 首先 提交 到 服务 器 磁盘 ， 然 后 再 将 结果 返 给 客户 端 。 也 就 是 说 ， 虽 然 客户 机 可 以 
缓存 写 人 数据 块 ， 但 是 当 它 将 数据 发 送 到 服务 器 时 ， 它 假定 这 些 数 据 已 到 达 服 务 器 磁盘 。 服 
务 器 必须 同时 写 人 所 有 的 NFS 数据 。 因 此 ， 服 务 器 的 崩 演 和 恢复 对 客户 机 来 说 是 不 可 见 的 ; 
服务 器 为 客户 机 管理 的 所 有 数据 块 会 是 完整 的 。 由 于 没有 缓存 ， 因 而 性 能 损失 可 能 很 大 。 采 
用 存储 加 上 其 自己 的 非 易 失 性 缓存 (通常 是 电池 备份 内 存 )， 可 以 提高 性 能 。 当 写 入 保存 到 
非 易 失 性 缓存 后 ， 磁 盘 控 制 器 就 确认 磁盘 写 人 。 实 际 上 ， 主 机 看 到 一 个 非常 快速 的 同步 写 
入 。 这 些 块 即使 在 系统 崩 演 后 仍然 完好 ， 并 从 这 个 稳定 存储 写 到 磁盘 。 

单个 NFS 写 人 程序 调用 确保 是 原子 的 ， 不 会 与 其 他 写 人 同一 文件 的 调用 混合 。 然 而 ， 
NFS 协议 并 不 提供 并 发 控制 机 制 。 一 个 系统 调用 write() 可 能 分 成 多 个 RPC 写 ， 因 为 每 个 
NFS 写 或 读 的 调用 可 以 包含 最 多 SKB 的 数据 而 UDP 分 组 限制 为 1500 字 节 。 因 此 ， 两 个 用 
户 对 同一 远程 文件 的 写 可 能 导致 数据 相互 混杂 。 由 于 锁 管 理 本 身 是 有 状态 的 ， 所 以 NFS 之 
外 的 服务 必须 提供 加 锁 ( Solaris 就 这 么 做 )。 建 议 用 户 采用 NFS 之 外 的 机 制 ， 协 调 访问 共享 
文件 。 

NFS 通过 VFS 集成 到 操作 系统 。 为 了 说 明 这 种 架构 ， 下 面 跟踪 对 一 个 已 打开 远程 文件 
的 操作 是 如 何 进行 的 (参见 图 11-15 ) 。 客 户 端 通过 普通 系统 调用 来 启动 操作 。 操 作 系统 层 将 
这 个 调用 映射 到 适当 vnode 的 VFS 操作 。VFS 层 识 别 文 件 为 远程 文件 ， 并 调用 适当 的 NFS 
子 程序 。RPC 调用 发 送 到 服务 器 的 NFS 服务 层 。 这 个 调用 重新 进入 远程 系统 的 VFS 层 ， 而 
且 后 者 发 现 它 是 本 地 的 并 且 调 用 适当 的 文件 系统 操作 。 通 过 回溯 这 个 路 径 ， 可 以 返回 结果 。 
这 种 架构 的 优点 是 ， 客 户 机 和 服务 器 是 相同 的 ; 因此 机 器 可 以 是 客户 机 或 服务 器 ， 或 两 个 都 
是 。 服 务 器 的 实际 服务 是 由 内 核 线程 执行 的 。 





图 11-15 NFS 架构 的 示意 图 


11.8.4 ”路 径 名 称 转换 
NFS 的 路 径 名 称 转换 ( path-name translation)， 将 路 径 名 称 ， 如 /usr/local/diri/ 
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file.txt 解析 成 单独 的 目录 条 目 或 组 件 : use、local 和 dir1。 路 径 名 称 转换 包括 : 将 路 径 
分 解 成 组 件 名 称 ， 并 且 为 每 对 组 件 名 和 目录 vnode 执行 单独 的 NFS 查找 调用 。 一 且 碰 到 安 
装点 ， 每 个 组 成 部 分 的 查找 会 发 送 一 个 单独 RPC 给 服务 器 。 这 个 低 效 的 路 径 转 换 方案 是 需 
要 的 ， 因 为 每 个 客户 的 逻辑 名 称 空间 的 布局 是 唯一 的 ， 是 由 客户 执行 的 安装 来 决定 的 。 当 碰 
到 安装 点 时 ， 如 果 发 送 给 服务 器 一 个 路 径 名 称 并 且 接 收 一 个 目标 虚拟 节点 ， 那 么 可 能 更 为 高 
效 。 然 而 ， 在 任何 时 候 ， 服 务 器 可 能 并 不 知道 ， 某 个 特定 客户 机 有 另 一 个 安装 点 。 

为 了 查找 很 快 ， 客 户 机 的 路 径 名 称 转换 的 缓存 保存 远程 目录 名 称 的 虚拟 节点 。 这 种 缓存 
加 快 了 对 具有 同样 初始 路 径 名 称 的 文件 的 引用 速度 。 当 服务 器 返回 的 属性 与 缓存 内 的 属性 不 
匹配 时 ， 目 录 缓 存 就 要 更 新 。 

回想 一 下 ， 有 些 NFS 实现 允许 在 一 个 已 经 远程 安装 的 文件 系统 上 再 安装 另 一 个 远程 文 
件 系统 (级 联 安装 )。 当 客户 机 有 级 联 安装 时 ， 路 径 名 称 遍 历 可 能 涉及 多 个 服务 器 。 然 而 ， 
当 客 户 机 执行 了 目录 查找 而 且 服 务 器 在 这 个 目录 上 安装 了 文件 系统 时 ， 客 户 端 看 到 的 是 原来 
的 目录 而 不 是 安装 的 目录 。 


11.8.5 远程 操作 


除了 文件 的 打开 和 关闭 外 ， 在 常规 UNIX 文件 操作 系统 调用 和 NFS 协议 RPC 之 间 ， 几 
平 有 一 对 一 的 对 应 关系 。 因 此 ， 远 程 文件 操作 可 以 直接 转换 对 应 的 RPC。 从 概念 上 来 说 ， 
NFS 遵守 远程 服务 范例 ; 但 是 ， 实际 上 ， 为 了 提高 性 能 也 采用 了 缓冲 和 缓存 技术 。 在 远程 
操作 和 RPC 之 间 ， 不 存在 直接 通信 。 相 反 ，RPC 获取 文件 块 和 文件 属性 ， 并 且 缓 存在 本 地 . 
以 后 的 远程 操作 采用 缓存 数据 ， 并 遵守 一 致 性 约束 。 

有 两 个 缓存 : 文件 属性 (索引 节点 信息 ) 缓存 和 文件 块 缓存 。 当 文件 打开 时 ， 内 核 检查 
远程 服务 器 ， 确 定 是 否 获取 或 重新 验证 缓存 的 属性 。 只 有 相应 的 缓存 属性 是 最 新 的 ， 才 会 使 
用 缓存 的 文件 块 。 每 当 服 务 器 的 新 属性 到 达 时 ， 更 新 属性 缓存 。 默 认 情 况 下 ， 缓存 属 性 在 
60 秒 后 丢弃 。 在 服务 器 和 客户 机 之 间 ， 使 用 提前 读 和 延迟 写 的 技术 。 客 户 机 并 不 释放 延迟 
写 的 块 ， 直 到 服务 器 确认 数据 已 经 写 到 磁盘 。 不 管 文件 是 否 按 冲突 模式 并 发 打开 ， 还 是 保留 
延迟 写 。 因 此 ， 没 有 保留 UNIX 语义 (10.5.3.1 节 )。 

系统 性 能 的 调整 难以 实现 NFS 的 一 致 性 语义 。 在 一 台 机 器 上 创建 的 新 文件 ， 可 能 在 别 
处 30 秒 看 不 到 。 此 外 ， 某 机 器 的 文件 写 可 能 为 或 可 能 不 为 打开 这 个 文件 的 其 他 机 器 所 可 见 。 
文件 的 新 的 打开 只 能 看 到 已 经 提交 到 服务 器 的 修改 。 因 此 ，NFS 既 不 提供 UNIX 语义 的 严格 
模仿 ， 也 不 提供 Andrew 会 话语 义 ( 10.5.3.2 节 )。 尽 管 有 这 些 缺 点 ， 这 种 机 制 的 实用 和 高 效 
仍 使 其 成 为 当前 使 用 最 多 的 、 多 数 厂 家 支持 的 分 布 式 文件 系统 。 


11.9 例子 : WAFL 文件 系统 


由 于 磁盘 IO 对 系统 性 能 有 巨大 影响 ， 系 统 设 计 者 需要 非常 关注 文件 系统 的 设计 和 实 
现 。 有 些 文件 系统 是 通用 的 ， 它 们 提供 合理 的 性 能 和 功能 ， 以 满足 各 种 文件 的 大 小 、 类 型 、 
IO 负载 。 另 外 一 些 文件 系统 针对 特定 任务 进行 了 优化 ， 试 图 在 这 些 任 务 领域 提供 比 通用 文 
件 系统 更 好 的 性 能 。 网 络 家 电 的 随处 可 写 文件 分 布 ( Write-Anywhere File Layout, WAFL) 
是 这 种 优化 的 一 个 例子 。WAFL 是 功能 强大 、 优 秀 的 文件 系统 ， 并 优化 了 随机 写 入 。 

WAFL 作为 分 布 式 文件 系统 ， 专 门 用 于 由 网 络 家 电 组 成 的 网 络 文件 服务 器 。 它 能 通过 
NFS, CIFS, ftp 和 http 协议 为 客户 机 提供 文件 ， 虽 然 它 只 是 专门 为 NFS 和 CIFS 设计 的 。 
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当 许 多 客户 机 使 用 这 些 协 议 与 文件 服务 器 通信 时 ， 服 务 器 可 能 看 到 大 量 的 随机 读 需 求 和 更 大 
数量 的 随机 写 需 求 。NFS 和 CIFS 协议 缓存 读 操 作 的 数据 ， 所 以 写 是 文件 服务 器 创建 者 最 关 
心 的 问题 。 

WAFL 用 于 包含 NVRAM 写 缓 存 的 文件 服务 器 。WAFL 设计 者 利用 特定 架构 (在 前 面 有 
一 个 稳定 的 存储 缓存 ) 来 优化 文件 系统 的 随机 WO。 易 用 性 是 WAFL 的 指导 原则 之 一 。 它 的 
创建 者 也 设计 了 一 个 新 快照 功能 ， 正 如 将 会 看 到 的 ， 它 可 以 在 不 同时 间 点 创建 文件 系统 的 多 
个 只 读 副 本 。 

这 个 文件 系统 ， 与 Berkeley 快速 文件 系统 类 似 , 但 有 许多 修改 。 它 是 基于 块 的 ， 并 使 
用 inode 来 描述 文件 。 每 个 索引 节点 包含 16 个 指向 属于 相应 文件 的 块 (或 间接 块 ) 指针 。 每 
个 文件 系统 有 一 个 根 inode。 所 有 的 元 数据 都 放 在 文件 中 : 所 有 的 索引 节点 放 在 一 个 文件 中 ， 
空闲 块 映射 表 在 另 一 个 文件 中 ， 空 闲 索引 节点 映射 表 在 第 三 个 文件 中 〈 见 图 11-16 )。 因 为 这 
些 都 是 标准 文件 ， 所 以 数据 块 的 位 置 没 有 限制 ， 可 以 放 在 任何 地 方 。 如 果 文 件 系统 通过 增加 
磁盘 而 扩展 ， 则 文件 系统 自动 扩展 这 些 元 数据 文件 的 长 度 。 





图 11-16 WAFL 文件 结构 


AK, WAFL 文件 系统 是 以 根 索 引 节点 为 基础 的 块 的 树 。 为 了 取得 快照 ，WAFL 复制 一 
份 根 节点 。 任 何 文件 或 元 数据 的 更 新 会 转 到 新 的 块 而 不 是 覆盖 现 有 的 块 。 新 的 根 inode 指向 
由 于 这 些 写 人 而 更 改 的 元 数据 和 数据 。 同 时 ,快照 (HAR inode) 仍然 指向 尚未 更 新 的 旧 块 。 
因此 ， 它 对 创建 快照 时 的 文件 系统 提供 访问 ， 并 且 这 么 做 只 需 极 少 的 磁盘 空间 。 本 质 上 ， 快 
照 占据 的 额外 磁盘 空间 仅仅 包括 自从 快照 创建 以 来 的 所 有 修改 块 。 

与 更 多 标准 文件 系统 的 重要 区 别 是 ， 空 闲 块 映射 表 内 的 每 块 有 多 个 位 。 这 个 位 图 为 使 用 
这 块 的 每 个 快照 设置 了 一 个 位 。 当 使 用 这 块 的 所 有 快照 都 删除 了 ， 这 块 的 位 图 就 清 零 ， 这 块 
就 空 着 并 可 被 重用 。 使 用 的 块 从 不 被 覆盖 ， 这 样 写 是 很 快 的 ， 因 为 写 可 能 发 生 在 当前 磁头 位 
置 附近 的 空闲 块 。 WAFL 还 有 许多 其 他 的 性 能 优化 。 

许多 快照 可 以 同时 存在 ， 所 以 可 以 每 小 时 或 每 天 创建 快照 。 具 有 这 些 快 照 访 问 权 限 的 用 
户 ， 对 文件 的 访问 ， 就 如 同 创 建 时 一 样 。 快 照 功能 对 于 备份 、 测 试 、 版 本 控制 等 ， 也 是 有 用 
Wo WAFL 的 快照 功能 非常 高 效 ， 因 为 它 在 修改 块 之 前 甚至 没有 要 求 采 用 数据 块 的 写 时 复制 
副本 。 其 他 文件 系统 也 提供 快照 功能 ， 但 是 通常 效率 更 低 。WAEFL 快照 ， 如 图 11-17 所 示 。 





b) 快照 后 ， 任 何 块 改 变 之 前 c) 块 D 改 变 为 D' 
图 11-17 WAFL 快照 
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较 新 版 本 的 WAFL 实际 上 人 允许 读 写 快照 ， 称 为 克隆 ( clone)。 通 过 采用 与 快照 同样 的 技 
术 ， 克 隆 也 是 高 效 的 。 在 这 种 情况 下 ， 只 读 快照 捕获 文件 系统 的 状态 ， 而 克隆 指向 只 读 快 
照 。 对 克隆 的 任何 写 人 都 存储 在 新 的 块 中 ， 并 且 更 新 克隆 指针 以 指向 新 的 块 。 原 来 的 快照 未 
被 修改 ， 仍 然 会 给 出 文件 系统 在 克隆 更 新 之 前 的 视图 。 克 隆 也 可 以 提升 以 便 蔡 代 原 来 文件 系 
统 ; 这 涉及 抛 出 所 有 的 旧 指针 和 任何 相关 的 旧 指针 块 。 克 隆 可 用 于 测试 和 升级 ， 因 为 原来 版 
本 没有 改动 ， 并 且 在 测试 完成 和 升级 失败 后 可 以 删除 克隆 。 

来 自 WAFL 文件 系统 实现 的 另 一 特点 是 复制 (replication)， 一 组 数据 的 重复 和 同步 通过 
网 络 传输 到 另 一 个 系统 。 首 先 ，WAEFL 文件 系统 的 快照 复制 到 另 一 系统 。 当 在 源 系 统 上 执行 
男 一 快照 时 ， 只 要 通过 发 送 新 快照 包含 的 所 有 块 就 可 以 相对 容易 地 更 新 远程 系统 。 这 些 块 是 
在 两 个 快照 之 间 改 变 的 那些 块 。 远 程 系统 将 这 些 块 添加 到 文件 系统 ， 并 更 新 它 的 指针 ， 这 样 
新 的 系统 是 在 第 二 次 快照 时 的 源 系 统 的 复制 。 重 复 这 个 过 程 将 远程 系统 维护 成 第 一 个 系统 的 
几乎 完整 复制 。 这 种 复制 用 于 灾难 恢复 。 如 果 第 一 个 系统 被 销毁 ， 则 远程 系统 仍 有 大 部 分 数 
据 可 用 。 

最 后 ， 我 们 应 该 注意 到 ，ZFS 文件 系统 支持 类 似 高 效 的 快照 、 克 隆 和 复制 。 


11.10， 涉 结 


文件 系统 永久 驻 留 在 外 存 上 ， 外 存 就 是 为 了 永和 久保 存 大 量 数据 。 最 普通 的 外 存 存储 介质 
是 磁盘 。 

物理 磁盘 可 以 分 割 成 分 区 ， 以 控制 介质 的 使 用 ， 并 且 人 允许 同一 磁盘 支持 多 个 〈 可 能 不 同 
的 ) 文件 系统 。 这 些 文件 系统 安装 到 一 个 逻辑 文件 系统 架构 上 ， 以 便 使 用 。 文 件 系统 通常 按 
分 层 或 模块 化 结构 来 实现 。 较 低层 处 理 存 储 设备 的 物理 属性 。 较 高 层 处 理 文件 的 符号 名 称 和 
逻辑 属性 。 中 间 层 将 逻辑 文件 概念 映射 到 物理 设备 属性 。 

任何 文件 系统 类 型 可 以 有 不 同 的 结构 和 算法 。VFS 层 允 许 高 层 统一 处 理 每 个 文件 系统 
类 型 。 远 程 文件 系统 甚至 也 能 集成 到 系统 的 目录 结构 ， 并 且 通 过 VFS 接口 采用 标准 系统 调 
用 来 操作 。 

各 种 文件 在 磁盘 上 有 三 种 空间 分 配方 法 : 连续 的 、 链 接 的 或 索引 的 分 配 。 连 续 分 配 可 
能 会 有 外 部 碎片 问题 。 链 接 分 配 的 直接 访问 非常 低 效 。 索 引 分 配 可 能 需要 相当 的 索引 块 的 开 
销 。 可 以 从 多 方面 来 优化 这 些 算 法 。 通 过 扩展 可 以 扩大 连续 空间 ， 以 增加 灵活 性 并 减少 外 部 
碎片 。 可 以 按 多 个 块 组 成 的 簇 来 进行 索引 分 配 ， 以 增加 吞吐 量 并 减少 所 需 索 引 条 目的 数量 。 
采用 大 艇 的 索引 类 做 于 采用 扩展 的 连续 分 配 。 

空闲 空间 分 配方 法 也 影响 磁盘 空间 使 用 的 效率 、 文 件 系统 的 性 能 、 外 存 的 可 靠 性 。 
使 用 方法 包括 位 向 量 和 链表 。 优 化 方法 包括 组 合 、 计 数 和 FAT (将 链表 放 在 一 个 连续 区 
域内 )。 

目录 管理 程序 必须 考虑 效率 、 性 能 和 可 靠 性 。 哈 希 表 是 常用 的 方法 ， 因 为 它 快速 并 且 高 
效 。 然 而 ， 表 损坏 和 系统 崩溃 可 能 导致 目录 信息 与 磁盘 内 容 不 一 致 。 一 致 性 检查 程序 可 用 于 
修复 损坏 。 操 作 系统 备份 工具 允许 将 磁盘 数据 复制 到 磁带 ， 允 许 用 户 恢复 数据 甚至 整个 磁盘 
( 因 硬 件 故障 、 操 作 系统 错误 或 用 户 错误 )。 

网 络 文件 系统 ， 如 NFS， 采 用 客户 机 - 服务 器 方法 ， 人 允许 用 户 访问 远程 机 器 的 文件 和 
目录 ， 就 好 像 本 地 文件 系统 一 样 。 客 户 机 的 系统 调用 转换 成 网 络 协议 ， 再 转换 成 服务 器 的 文 
件 系统 操作 。 网 络 和 多 客户 访问 在 数据 一 致 性 和 性 能 方面 增加 了 挑战 。 
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由 于 文件 系统 在 系统 操作 中 的 重要 作用 ， 其 性 能 和 可 靠 性 至 关 重 要 。 日 志 结构 和 缓存 等 


技术 改善 性 能 ， 而 日 志 结 构 和 RAID 提高 可 靠 性 。WAFL 文件 系统 是 性 能 优化 的 一 个 例子 ， 
以 匹配 特定 的 WO 负载 。 


习题 


lal 
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11.3 


11.4 


11.5 


11.6 
11.7 


11.8 


假设 一 个 文件 系统 采用 改进 的 、 支 持 扩展 的 连续 分 配 算法 。 每 个 文件 包括 一 组 扩展 (extent), mi 
每 个 扩展 对 应 一 组 连续 块 。 这 种 系统 的 关键 问题 是 扩展 大 小 的 差异 程度 。 以 下 方案 的 优点 和 缺 

点 是 什么 ? 

a. 所 有 扩展 都 是 同样 大 的 ， 并 且 预 先 定义 的 。 

b. 扩展 可 以 是 任意 大 小 的 ， 并 且 可 以 动态 分 配 。 

c. 扩展 可 以 是 一 些 预先 定义 的 、 固 定 大 小 的 。 

对 于 顺序 和 随机 的 文件 访问 ， 比 较 磁盘 块 分 配 (连续 的 、 链 接 的 和 索引 的 ) 的 三 种 技术 的 性 能 。 

链接 分 配 的 一 个 变种 采用 FAT 来 链接 所 有 文件 的 块 。 它 的 优点 是 什么 ? 

假设 一 个 系统 将 空闲 空间 保存 在 空闲 空间 列表 上 。 

a. 假设 空闲 空间 列表 的 指针 丢失 了 。 系 统 可 以 重建 空闲 空间 列表 吗 ? 解释 你 的 答案 。 

b. 假设 一 个 文件 系统 采用 类 似 于 UNIX 的 索引 分 配 。 读 取 一 个 小 的 本 地 文件 /a/b/c 需要 多 少 
磁盘 IO 操作 ? 假设 当前 没有 缓存 的 磁盘 块 。 

c. 提出 一 种 机 制 ， 以 确保 不 会 因为 内 存 故障 而 丢失 指针 。 

有 一 些 文件 系统 允许 磁盘 空间 在 不 同 的 粒度 级 别 分 配 。 例 如 ， 文 件 系 统 可 以 把 4KB 的 磁盘 空间 
分 配 为 一 个 4KB ASR, 或 者 8 个 512 字 节 的 块 。 可 以 怎样 利用 这 种 特性 来 改进 性 能 ? 为 了 支持 

这 种 特性 需要 对 空闲 空间 管理 机 制 做 什么 修改 ? 

对 于 当 计 算 机 崩溃 后 保持 系统 的 一 致 性 ， 讨 论文 件 系 统 的 性 能 优化 如 何 带 来 困难 。 

考虑 一 个 磁盘 的 文件 系统 ， 它 的 逻辑 块 和 物理 块 的 大 小 都 为 512 字 节 。 假 设 每 个 文件 的 信息 已 

在 内 存 中 。 针 对 每 种 分 配 策略 (连续 、 链 接 和 索引 )， 回 答 这 些 问题 : 

a. 这 个 系统 的 逻辑 到 物理 地 址 映射 是 如 何 实现 的 ? (对 于 索引 分 配 ， 假 设 每 个 文件 总 是 小 于 512 
块 长 。) 

b. 如 果 当 前 处 于 逻辑 块 10( 即 最 后 访问 的 块 为 块 10 ) 并 且 需 要 访问 逻辑 块 4， 必 须 从 磁盘 上 读 
取 多 少 物理 块 ? 

考虑 一 个 文件 系统 采用 inode 来 表示 文件 。 磁 盘 块 大 小 为 SKB ， 磁 盘 块 指针 需要 4 字 节 。 这 个 

文件 系统 具有 12 个 直接 磁盘 块 ， 以 及 一 级 的 、 二 级 的 和 三 级 的 间接 磁盘 块 。 这 个 文件 系统 存储 

文件 的 最 大 大 小 是 什么 ? 

存储 设备 的 碎片 可 以 通过 信息 的 重 压 缩 来 消除 。 典 型 的 磁盘 设备 没有 重 定位 或 基 址 的 寄存 器 

(如 同 内 存 压缩 时 所 用 的 )， 这 样 如 何 能 够 重 定 位 文件 ?给 出 三 个 理由 ， 为 什么 通常 避免 文件 的 重 

压缩 和 重 定位 。 


11.10 ”假设 在 一 个 远程 文件 访问 协议 的 特定 扩展 中 ， 每 个 客户 机 保存 了 一 个 名 称 缓存 来 缓存 从 文件 名 


11.11 
11.12 


称 到 文件 句柄 的 转换 。 当 实现 名 称 缓存 时 ， 需 要 考虑 什么 问题 ? 
解释 为 什么 日 志 元 数据 更 新 确保 文件 系统 能 够 从 崩溃 中 恢复 过 来 ? 
考虑 以 下 备份 方案 : 

。 第 1 天 : 将 所 有 磁盘 文件 复制 到 备份 介质 。 

e 第 2 天 : HAR 1 天 以 后 变化 的 所 有 文件 复制 到 另 一 介质 。 
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e 第 3 天 : 将 自 第 1 天 以 后 变化 的 所 有 文件 复制 到 另 一 介质 。 

这 不 同 于 11.7.4 节 所 给 的 方案 ， 即 后 续 备 份 复制 自 第 一 次 备份 后 改变 的 所 有 文件 。 这 个 系统 与 
11.7.4 节 的 方案 相 比 ， 有 什么 优点 ? 它 的 缺点 是 什么 ? 恢复 操作 是 更 简单 了 还 是 更 复杂 了 ? 解 
释 你 的 答案 。 


编程 题 


以 下 练习 分 析 UNIX 或 Linux 系统 上 的 文件 与 inode 之 间 的 关系 。 在 这 些 系统 上 ， 文件 可 用 inode 
表示 。 也 就 是 说 ，inode 就 是 文件 (反之 亦 然 )。 你 可 以 在 与 本 书 配套 的 Linux 虚拟 机 上 完成 这 个 练习 。 
你 也 可 以 在 任何 Linux, UNIX 或 Mac OS X 系统 上 完成 这 个 练习 ; 但 是 需要 创建 两 个 简单 的 文本 文件 ， 
它们 的 名 称 为 filel.txt 和 file3.txt， 而 内 容 只 是 句子 。 

11.13 ”在 本 书 提供 的 源 代码 中 ,打开 filel .txt 并 检查 内 容 。 接 下 来 ， 通 过 以 下 命令 获得 这 个 文件 
的 inode 号 : 


ls -li filel.txt 
这 将 产生 类 似 于 以 下 内 容 的 输出 : 
16980 -rw-r--r-- 2 os os 22 Sep 14 16:13 filei.txt 


其 中 inode 号 为 粗 体 ，(filel .txt 的 inode 号 在 你 的 系统 上 可 能 不 同 。) 
UNIX 命令 1n 创建 源 文件 和 目标 文件 之 间 的 一 个 链接 。 这 个 命令 工作 如 下 : 


ln [-s] <source file> <target file> 


UNIX 提供 两 种 类 型 的 链接 : 硬 链接 (hard link) 和 软 链接 (soft link ) 。 硬 链接 创建 一 个 单独 的 
目标 文件 ， 它 与 源 文 件 具 有 同样 的 inode。 输 入 以 下 命令 来 创建 filel.txt fl file2.txt 之 间 
的 一 个 硬 链 接 。 


ln filel.txt file2.txt 
filei.txt fl file2.txt 的 inode HEA? 它们 是 相同 还 是 不 同 ? 这 两 个 文件 有 相同 或 不 同 
的 内 容 吗 ? 
接 下 来 ， 编 辑 file2.txt 以 修改 内 容 。 在 完成 之 后 ， 检 查 filel .txt 的 内 容 。filel.txt 和 
file2.txt 的 内 容 是 相同 还 是 不 同 ? 
然后 ， 输 入 以 下 命令 来 删除 filel .txt: 


rm file1.txt 


file2.txt 是 否 仍然 存在 ? 
现在 查看 命令 rm 和 unlink 的 文档 。 之 后 ， 通 过 输入 以 下 命令 删除 文件 file2. txt 


strace rm file2.txt 
当 运 行 命令 rm file2.txt 时 ,命令 strace 跟踪 系统 调用 的 执行 。 删 除 文件 file2.txt 采用 
了 什么 系统 调用 ? 
软 链 接 (或 符号 链接 ) 创建 了 一 个 新 文件 ， 以 “指向 ” 它 所 链接 的 文件 名 称 。 在 与 本 书 配套 的 
源 代码 中 ， 通 过 输入 以 下 命令 创建 file3.txt 的 一 个 软 链接 


ln -s file3.txt filed.txt 
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完成 之 后 ， 采 用 以 下 命令 获取 file3.txt Al file4.txt 的 inode 号 ; 


ls =li file*.txt 


这 些 inode 是 相同 的 ， 还 是 不 同 的 ? 接 下 来 ， 编 辑 file4.txt MAA. file3.txt 的 内 容 已 经 
更 改 了 吗 ? 最 后 ， 删 除 file3.txt。 完 成 之 后 ， 当 试图 编辑 file4.txt 时 ， 解 释 会 发 生 什么 。 
推荐 读物 
Norton 和 Wilton (1988 ) 解释 了 MS-DOS FAT 系统 。McKusick 和 Neville-Neil ( 2005 ) 全 面 讨 
i T BSD UNIX 系统 的 内 部 细节 。Love( 2010 ) 描述 了 Linux 文件 系统 的 细节 。Ghemawat 等 (2003 ) 
HRT Google 文件 系统 。 关 于 FUSE， 可 以 参见 http://fuse.sourceforge.net。 
通过 日 志 结 构 的 文件 组 织 来 增强 性 能 和 一 致 性 的 讨论 ， 人 参见 Rosenblum 和 Ousterhout ( 1991 ), 
Seltzer 等 (1993 ) 与 Seltzer 等 (1995 )。Knuth ( 1998 ) 和 Cormen 等 (2009 ) 讨论 了 有 关 平 衡 树 (等 
EL) 的 算法 。 Silvers( 2000) 讨论 了 NetBSD 操作 系统 的 页 面 缓存 实现 。 有 关 空 间 映 射 的 ZFS 源 代 码 ， 
见 http://src.opensolaris,org/source/xref/onnv/onnv-gate/usr/src/uts/common/fs/zfs/space map.co 
Callaghan (2000 ) 讨论 了 网 络 文件 系统 (NFS)。NFS V4 的 标准 见 http://www.ietf.org/rfc/rfc3530. 
txt. Ousterhout (1991) 讨论 了 网 络 文件 系统 中 的 分 布 状态 的 作用 。Hartman 和 Ousterhout ( 1995 ) 
以 及 Thekkath 等 (1997) 提出 了 网 络 文件 系统 的 日 志 结 构 的 设计 。Vahalia (1996) 以 及 Mauro 
和 McDougall (2007) 描述 了 NFS 和 UNIX 文 件 系统 。Solomon (1998) 解释 了 NTFS 文 件 系统 。 
Mauerer ( 2008 ) 描述 了 Linux 所 用 的 Ext3 文件 系统 ， 并 且 Hitz 等 (1995 ) 讨论 了 WAFL 文件 系统 。 
AK ZFS 文件 ， 参 见 http://www.opensolaris.org/os/community/ZFS/docs > 
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大 容量 存储 结构 





文件 系统 从 逻辑 上 来 看 包括 三 个 部 分 。 第 10 章 讨 论 了 文件 系统 的 用 户 和 程序 员 的 接口 。 
第 11 章 描述 了 操作 系统 实现 这 种 接口 的 内 部 数据 结构 和 算法 。 本 章 讨论 文件 系统 的 最 低层 : 
次 级 存储 (外 存 ) 结构 。 首 先 ， 描 述 磁 盘 和 磁带 的 物理 结构 。 然 后 ， 描 述 磁盘 调度 算法 ， 以 
便 调度 磁盘 IO 的 次 序 来 优化 性 能 。 接 着 ， 讨 论 磁盘 格式 化 和 启动 块 、 坏 块 以 及 交换 空间 的 
管理 。 最 后 ， 分 析 RAID 系统 的 结构 。 

本 章 目标 

o 描述 外 存 设 备 的 物理 结构 及 其 对 设备 使 用 的 影响 。 

o 解释 大 容量 存储 设备 的 性 能 特点 。 

o 评估 磁盘 调度 算法 。 

© 讨论 对 大 容量 存储 (包括 RAID) 提供 的 操作 系统 服务 。 


12.1 大 容量 存储 结构 概述 
本 节 概 述 二 级 和 三 级 存储 设备 的 物理 结构 。 


12.1.1 磁盘 


磁盘 或 硬盘 (magnetic disk 或 hard disk) 
为 现代 计算 机 系统 提供 大 量 外 存 。 在 概念 上 ， 
磁盘 比较 简单 (图 12-1 )。 每 个 盘 片 ( platter) 
为 平 的 圆 状 ， 如 同 CD 一 样 。 普 通盘 片 的 直径 
为 1.8 一 3.5 英 寸 (1 英 寸 =2.54 厘米 )。 盘 片 
的 两 面 都 涂 着 磁 质 材料 。 通 过 在 盘 片上 进行 磁 
性 记录 可 以 保存 信息 。 

读 写 磁头 “飞行 ”在 一 个 盘 片 的 表面 上 
Ho WE OE TERE RR (disk arm) 上 ， 磁 臂 将 
所 有 磁头 作为 一 个 整体 而 一 起 移动 。 盘 片 的 表 
面 逻 辑 地 分 成 圆 形 磁道 ( track )， 再 细 分 为 扇 
区 ( sector)。 同 一 磁 辟 位 置 的 磁道 集合 形成 了 
柱 面 (cylinder)。 每 个 磁盘 驱动 器 有 数 千 个 同心 柱 面 ， 而 每 个 磁道 可 能 包括 数 百 个 扇 区 。 常 
见 磁 盘 驱 动 器 的 存储 容量 按 GB 来 计算 。 

当 使 用 磁盘 时 ， 驱 动 器 电机 高 速 旋 转 磁 盘 。 大 多 数 驱动 器 每 秒 旋转 60 ~ 250 次 ， 按 每 
分 钟 转 数 ( Rotation Per Minute, RPM) 来 计 。 普 通 驱动 器 的 转速 为 5400、7200、10 000 和 
15 000RPM。 磁 盘 速 度 有 两 部 分 。 传 输 速 率 (transfer rate) 是 在 驱动 器 和 计算 机 之 间 的 数据 
流 的 速率 。 定 位 时 间 (positioning time) 或 随机 访问 时 间 (random access time) 包括 两 部 分 : 
寻 道 时 间 (seek time) (移动 磁 辟 到 所 要 柱 面 的 所 需 时 间 ) 和 旋转 延迟 (rotational latency) ( 旋 





图 12-1 移动 磁头 的 磁盘 装置 
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时 间 和 旋转 延迟 为 数 毫秒 。 

因为 磁头 飞行 在 极 蒲 的 空气 垫上 (以 微米 计 )， 所 以 磁头 有 与 磁盘 表面 接触 的 危险 。 虽 
然 盘 片 涂 有 薄 薄 的 保护 层 ， 但 是 磁头 有 时 可 能 损坏 磁盘 表面 。 这 个 事故 称 为 磁头 磁 撞 (head 
crash) 。 磁 头 碰 撞 通 常 无 法 修复 ， 必 须 蔡 换 整 个 磁盘 。 

磁盘 可 以 是 可 移动 的 ， 人 允许 按 需 安装 不 同 磁盘 。 可 移动 磁盘 通常 只 有 一 个 盘 片 ， 它 保存 
在 塑料 盒 内 以 防止 不 在 驱动 器 内 时 被 损坏 。 其 他 形式 的 可 移动 磁盘 包括 CD. DVD, IGE 
盘 以 及 称 为 闪存 驱动 器 (flash drive) 的 可 移动 闪存 设备 (这 是 一 种 固态 驱动 器 )。 

磁盘 驱动 器 通过 称 为 VO 总 线 (IO bus) 的 一 组 电缆 连 到 计算 机 。 有 多 种 可 用 总 线 ， 包 
括 硬盘 接口 技术 (Advanced Technology Attachment, ATA), YT ATA (Serial ATA, SATA), 
外 部 串 行 ATA (external Serial ATA, eSATA), #2 ARO MR (Universal Serial Bus, USB), 
光纤 通道 (Fiber Channel，FC)。 数 据 传输 总 线 由 称 为 控制 器 (controller) 的 专门 电子 处 理 
器 来 进行 。 主 机 控制 器 (host controller) 为 总 线 的 计算 机 端的 控制 器 。 磁 盘 控制 器 ( disk 
controller) 是 磁盘 驱动 器 内 置 的 。 为 了 执行 磁盘 IO 操作， 计算 机 通过 如 9.7.3 节 所 述 的 内 
存 映射 VO 端口 ， 发 送 一 个 命令 到 主机 控制 器 。 接 着 ， 主 机 控制 器 通过 消息 将 该 命令 送 给 磁 
盘 控 制 器 ; 并 且 磁 盘 控 制 器 操作 磁盘 驱动 器 硬件 ， 以 执行 命令 。 磁 盘 控 制 器 通常 具有 内 置 组 
存 。 磁 盘 驱 动 器 的 数据 传输 ， 在 缓存 和 磁盘 表面 之 间 进 行 ; 而 到 主机 的 数据 传输 ， 则 按 更 快 
速度 在 缓存 和 主机 控制 器 之 间 进 行 。 


12.1.2 ”固态 磁盘 


随 着 经 济 发 展 或 技术 革新 ， 老 旧 技 术 有 时 按 新 的 方式 来 使 用 。 一 个 例子 是 固态 磁盘 
(Solid-State Disk, SSD) 的 日 益 重要 。 简 单 而 言 ，SSD 为 非 易 失 性 存储 ， 可 用 作 硬 盘 。 这 种 
技术 ， 有 多 个 变形 ， 从 带 有 电池 (以 允许 在 电源 故障 时 维护 状态 ) 的 DRAM， 到 闪存 技术 ， 
如 单 层 单元 (Single-Level Cell, SLC) 或 多 层 单元 (MultiLevel Cell, MLC) fits 

SSD 具有 与 传统 硬盘 相同 的 特性 ， 但 是 会 更 可 靠 ， 因 为 没有 移动 部 件 ;而 且 会 更 快 ， 因 
为 没有 寻 道 时 间或 延迟 。 此 外 ， 其 电源 消耗 更 少 。 然 而 ， 与 传统 硬盘 相 比 ，SSD 的 每 兆 字 节 
更 昂贵 ， 容 量 也 更 大 ， 寿 命 也 更 短 ， 所 以 用 途 有 限 。SSD 的 用 途 之 一 是 存储 数组 ， 这 可 用 于 
存储 文件 系统 元 数据 以 提高 性 能 。SSD 也 用 于 一 些 笔记 本 电脑 ， 以 便 更 小 、 更 快 、 更 节能 。 

因为 SSD 比 磁盘 驱动 器 要 快 得 多 ， 标 准 总 线 接口 可 能 会 对 吞吐 量 造成 重大 限制 。 有 些 
SSD 设计 成 直接 连 到 系统 总 线 (例如 ，PCI)。SSD 也 改变 其 他 方面 的 传统 计算 机 设计 。 有 
些 系统 直接 使 用 SSD 来 替代 磁盘 驱动 器 。 而 其 他 的 用 SSD 作为 缓存 ， 以 便 在 磁盘 、SSD 和 
内 存 之 间 移 动 数据 ， 来 优化 性 能 。 

在 本 章 的 其 余部 分 ， 有 的 部 分 涉及 SSD， 而 其 他 的 则 没有 。 例 如 ， 由 于 SSD 没有 磁头 ， 
磁盘 调度 算法 在 很 大 程度 上 不 适用 。 然 而 ,吞吐 量 和 格式 化 确实 适用 。 


12.1.3 ”磁带 


磁带 (magnetic tape) 曾经 用 作 早 期 的 外 存 媒介 。 虽 然 它 是 相对 永久 的 ， 可 以 容纳 大 量 
的 数据 ， 但 是 与 内 存 和 磁盘 相 比 ， 它 的 访问 时 间 更 长 。 另 外 ， 磁 带 随机 访问 要 比 磁盘 随机 访 
问 慢 千 倍 ， 所 以 磁带 对 于 外 存 不 是 很 有 用 。 磁 带 主 要 用 于 备份 不 常 使 用 的 信息 ， 也 用 作 系 统 
之 间 信 息 传输 的 媒介 。 
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| 磁盘 传输 速率 

j 正如 计算 的 许多 方面 ， 公 布 的 磁盘 性 能 数字 与 现实 的 性 能 数字 有 所 不 同 。 例 如 ， 声 
称 的 传输 速率 总 是 低 于 有 效 传输 速率 (effective transfer rate)。 传 输 速 率 可 能 是 ， 磁 头 从 
磁 介 质 读 取 比 特 的 速率 ; 但 是 这 不 同 于 块 被 传送 到 操作 系统 的 速率 。 


磁带 绕 在 轴 上 ， 向 前 转 或 向 后 转 并 通过 读 写 磁头 。 移 到 磁带 的 正确 位 置 需要 几 分 钟 ， 但 
是 一 旦 定位 ， 可 以 按 磁盘 驱动 器 相似 的 速度 来 读 写 数 据 。 磁 带 容 量 差异 很 大 ， 取 决 于 特定 类 
型 的 磁带 机 ， 目 前 的 容量 超过 几 TB。 有 些 磁带 具有 内 置 压 缩 功能 ， 以 使 存储 效率 提高 一 倍 
多 。 磁 带 及 其 驱动 程序 通常 按 宽度 来 划分 ， 包 括 4mm, 8mm, 19mm, 1/4inch 和 1/2inch。 
有 的 是 根据 技术 命名 的 ， 如 LTO-5 和 SDLT, 


12.2 ”磁盘 结构 


PAR WEES SK oh At BT WAAR VEE BIR (logical block) 的 一 维 数 组 ， 这 里 的 逻辑 块 是 最 小 的 
传输 单位 。 逻 辑 块 的 大 小 通常 为 512 字 节 ， 虽 然 有 的 磁盘 可 以 通过 低级 格式 化 (low-level 
formatted) 来 选择 不 同 的 逻辑 块 大 小 ， 如 1024 字 节 ， 对 于 这 个 选项 ， 可 以 参见 12.5.1 节 。 
一 维 逻辑 块 数组 依次 映射 到 磁盘 鹿 区 。 扇 区 0 是 最 外 面 柱 面 的 第 一 个 磁道 的 第 一 个 扇 区 。 
这 个 映射 是 先 按 磁道 内 扇 区 顺序 ， 再 按 柱 面 内 磁道 顺序 ， 再 按 从 外 到 内 的 柱 面 顺序 来 进 
行 的 。 

通过 这 个 映射 ， 至 少 从 理论 上 能 够 将 逻辑 块 号 转换 为 由 磁盘 内 的 柱 面 号 、 柱 面 内 的 磁道 
号 、 磁 道内 的 扇 区 号 所 组 成 的 老式 磁盘 地 址 。 在 实践 中 ， 由 于 两 个 原因 ， 这 个 转换 的 执行 很 
难 。 首 先 ， 大 多 数 磁 盘 都 有 一 些 缺 陷 扇 区 ， 因 此 映射 必须 用 磁盘 上 的 其 他 空闲 扇 区 来 蔡 代 这 
些 缺 陷 扇 区 。 其 次 ， 对 于 某 些 驱动 器 ， 每 个 磁道 的 鹿 区 数 并 不 是 常量 。 

下 面 更 深入 地 分 析 第 二 个 原因 。 对 于 采用 恒定 线 速 度 (Constant Linear Velocity, CLV) 
的 媒介 ， 每 个 磁道 的 比特 密度 是 均匀 的 。 磁 道 距 离 磁盘 中 心 越 远 ， 长 度 越 长 ， 从 而 也 能 容纳 
更 多 扇 区 。 当 从 外 部 区 域 移 到 内 部 区 域 ， 每 个 轨道 的 扇 区 数量 会 降低 。 最 外 层 的 轨道 通常 比 
最 内 层 的 轨道 多 拥有 40% 的 扇 区 数 。 随 着 磁头 由 外 磁道 移 到 内 磁道 ， 驱 动 器 增加 旋转 速度 ， 
以 保持 传输 数据 率 的 恒定 。 这 种 方法 用 于 CD-ROM 和 DVD-ROM 驱动 器 。 另 外 ， 磁 盘旋 转 
速度 可 以 保持 不 变 ， 因 此 内 部 磁道 到 外 部 磁道 的 比特 密度 不 断 降低 ， 以 保持 数据 率 不 变 。 这 
种 方法 用 于 硬盘 ， 称 为 恒定 角速度 (Constant Angular Velocity, CAV). 

随 着 磁盘 技术 不 断 改善 ， 每 个 磁道 的 扇 区 数 不 断 增加 。 磁 盘 外 部 的 每 个 磁道 通常 有 数 百 
个 局 区 。 类 似 地 ， 每 个 磁盘 的 柱 面 数 也 不 断 增 加 ， 大 磁盘 有 数 万 个 柱 面 。 


12.3 ”磁盘 连接 


计算 机 访问 磁盘 存储 有 两 种 方式 。 一 种 方式 是 通过 IO 端口 (或 主机 连接 存储 ( host- 
attached storage) )， 小 系统 常 采用 这 种 方式 。 另 一 方式 是 通过 分 布 式 文件 系统 的 远程 主机 ; 
这 称 为 网 络 连 接 存储 (network-attached storage) 。 


12.3.1 主机 连接 存储 


主机 连接 存储 是 通过 本 地 IO 端口 来 访问 的 存储 。 这 些 端口 使 用 多 种 技术 。 典 型 的 台式 
PC 采用 IO 总 线 架 构 ， 如 IDE 或 ATA。 这 类 架构 允许 每 条 IO 总 线 最 多 支持 两 个 驱动 器 。 
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SATA 为 更 新 的 、 类 似 的 、 布 线 更 加 简化 的 一 个 协议 。 

高 端 工作 站 和 服务 器 通常 采用 更 复杂 的 IO 架构 ， 例 如 光纤 通道 (Fibre Channel, FC) ; 
FC 是 一 个 高 速 的 串 行 架构 ， 和 运行 在 光纤 或 四 芯 铜 线 上 。 它 有 两 个 变 体 。 一 个 是 大 的 交换 
结构 ， 具 有 24 位 地 址 空间 。 这 个 变 体 预计 未 来 将 占 主 导 地 位 ， 是 存储 域 网 ( Storage-Area 
Network, SAN) 的 基础 (如 12.3.3 节 所 述 )。 由 于 通信 的 较 大 地 址 空间 和 交换 性 质 ， 多 个 主 
机 和 存储 设备 可 以 连 到 架构 ， 使 得 IO 通信 具有 极 大 的 灵活 性 。 另 一 个 FC 变 体 是 FC 仲裁 
环 路 (FC Arbitrated Loop，FC-AL)， 可 以 寻 址 126 个 设备 (驱动 器 和 控制 器 )。 

多 种 存储 设备 适合 用 作 主 机 连接 存储 ; 包括 硬盘 驱动 器 、RAID 阵列 、CD、DVD 和 磁 
带 驱动 器 。 对 主机 连接 存储 设备 进行 数据 传输 的 IO 命令 是 ， 针 对 特定 存储 单元 (例如 总 线 
ID 和 目标 逻辑 单元 ) 的 逻辑 数据 块 的 读 和 写 。 


12.3.2 ”网络 连接 存储 


网 络 连 接 存储 (NAS) 设备 是 一 种 专用 存储 系 
统 ， 可 以 通过 数据 网 络 来 远程 访问 (图 12-2 )。 客 户 
通过 远程 过 程 调用 (RPC)， 如 UNIX 系统 的 NFS 或 
Windows 机 器 的 CIFS, 访问 网 络 连接 存储 。 远 程 过 
程 调用 (RPC) 通过 IP 网 络 (通常 为 向 客户 传输 数据 
的 局 域 网 LAN) 的 TCP 或 UDP 来 进行 。 因此， 将 
NAS 看 作 另 一 个 存储 访问 协议 可 能 是 最 简单 的 。 网 
络 连接 存储 单元 通常 采用 RPC 接口 软件 来 实现 。 

网 络 连接 存储 提供 了 一 种 方便 方法 ， 以 便 所 有 LAN 上 的 计算 机 通过 与 本 地 主机 连接 存 
储 一 样 方便 的 命名 和 访问 ， 来 共享 存储 池 。 然 而 ， 与 主机 本 地 的 连接 存储 相 比 ， 这 种 方法 似 
乎 效率 更 低 ， 并 且 性 能 更 差 。 

Internet 小 型 计算 机 系统 接口 ( Internet Small Computer System Interface, iSCSI) 是 最 
新 的 网 络 连接 存储 协议 。 在 本 质 上 ， 它 采用 IP 网络 协 议 来 执行 SCSI 协议 。 从 而 ， 主 机 与 
存储 之 间 的 互 连 可 能 是 网 络 ， 而 不 是 SCSI 电缆 。 因 此 ， 主 机 可 以 将 存储 当 作 好 似 直接 连接 
的 ， 即 使 存储 远离 主机 。 


12.3.3 ”存储 区 域 网 络 


网 络 连接 存储 系统 的 一 个 缺点 是 ， 存 储 LO 操作 消耗 数据 网 络 的 带宽 ， 从 而 增加 网 络 通 
信 的 延迟 。 这 个 问题 对 于 大 型 客户 机 - 服务 器 环境 可 能 特别 严重 ， 服 务 器 与 客户 机 之 间 的 通 
信和 服务 器 与 存储 设备 之 间 的 通信 ， 竞 争 通信 带宽 。 

存储 区 域 网 络 ( Storage Area Network, SAN) 为 专用 网 络 ， 采 用 存储 协议 而 不 是 网 络 
协议 连接 服务 器 和 存储 单元 ， 如 图 12-3 所 示 。SAN 的 优势 在 于 灵活 性 。 多 个 主机 和 多 个 存 
储 阵列 可 以 连接 到 同一 个 SAN 上 ， 存 储 可 以 动态 分 配 到 主机 。SAN 交换 机 人 允许 或 禁止 主机 
访问 存储 。 例 如 ， 当 主机 的 磁盘 空间 变 低 时 ， 可 以 通过 配置 SAN 来 为 主机 提供 更 多 存储 。 
SAN 可 以 让 服务 器 集群 共享 同样 的 存储 ， 让 存储 阵列 包括 多 个 直接 主机 连接 。 与 存储 阵列 
相 比 ，SAN 通常 具有 更 多 端口 以 及 更 多 昂贵 端口 。 

虽然 FC 是 最 常见 的 SAN 互 连 , 但 是 iSCSI 使 用 正在 增加 。 另 一 个 SAN 互 连 是 InfiniBand， 
这 种 专用 总 线 架构 提供 硬件 和 软件 ， 以 支持 服务 器 和 存储 单元 的 高 速 互 连 网 络 。 





图 12-2 网 络 连接 存储 
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12-3 ”存储 区 域 网 络 


12.4 ”磁盘 调度 


操作 系统 的 职责 之 一 是 有 效 使 用 硬件 。 对 于 磁盘 驱动 器 ,满足 这 个 要 求 具有 较 快 的 访问 
速度 和 较 宽 的 磁盘 带宽 。 对 于 磁盘 ， 访 问 时 间 包 括 两 个 主要 部 分 ， 参见 12.1.1 节 。 寻 道 时 间 
(seek time) 是 磁 臂 移动 磁头 到 包含 目标 扇 区 的 柱 面 的 时 间 。 旋 转 延 迟 (rotational latency) 是 
磁盘 旋转 目标 扇 区 到 磁头 下 的 额外 时 间 。 磁 盘 带 宽 (disk bandwidth) 是 传输 字 节 的 总 数 除 以 
从 服务 请 求 开 始 到 最 后 传递 结束 时 的 总 时 间 。 通 过 管理 磁盘 IO 请 求 的 处 理 次 序 ， 可 以 改善 
访问 时 间 和 带宽 。 

每 当 进程 需要 进行 磁盘 IO 操作 时 ， 它 就 向 操作 系统 发 出 一 个 系统 调用 。 这 个 请 求 需要 
一 些 信息 : 

o 这 个 操作 是 输入 还 是 输出 

e 传输 的 磁盘 地 址 是 什么 

e 传输 的 内 存 地 址 是 什么 

o 传输 的 扇 区 数 是 多 少 

如 果 所 需 的 磁盘 驱动 器 和 控制 器 空闲 ， 则 立即 处 理 请 求 。 如 果 磁 盘 驱动 器 或 控制 器 忙 ， 则 
任何 新 的 服务 请 求 都 会 添加 磁盘 驱动 器 的 待 处 理 请 求 队列 。 对 于 具有 多 个 进程 的 一 个 多 道 程序 
系统 ， 磁 盘 队 列 可 能 有 多 个 待 处 理 的 请 求 。 因 此 ， 当 一 个 请 求 完 成 时 ， 操 作 系 统 可 以 选择 哪个 
待 处 理 的 请 求 服务 。 操 作 系 统 如 何 进行 选择 ? 有 多 个 磁盘 调度 算法 可 以 使 用 ， 接 下 来 讨论 它们 。 


12.4.1 FCFS 调度 


磁盘 调度 的 最 简单 形式 当然 是 ， 先 来 先 服务 (First-Come First Served, FCFS) 算法 。 虽 
然 这 种 算法 比较 公平 ， 但 是 它 通常 并 不 提供 最 快 的 服务 。 例 如 ， 考 虑 一 个 磁盘 队列 ， 其 I/O 
请 求 块 的 柱 面 的 顺序 如 下 : 


98, 183, 37, 122, 14, 124, 65, 67 545 


如 果 磁 头 开 始 位 于 柱 面 53， 那 么 它 首先 从 53 移 到 98， 接 着 再 到 183、37、122、14、124、 
65， 最 后 到 67， 磁 头 移动 柱 面 的 总 数 为 640。 这 种 调度 如 图 12-4 所 示 。 

从 122 到 14 再 到 124 的 大 摆动 说 明了 这 种 调度 的 问题 。 如 果 对 柱 面 37 和 14 的 请 求 一 起 处 
理 ， 不 管 是 在 122 和 124 之 前 或 之 后 ， 总 的 磁头 移动 会 大 大 减少 ， 并 且 性 能 也 会 因此 得 以 改善 。 


12.4.2 SSTF 调度 
在 移动 磁头 到 别处 以 便 处 理 其 他 请 求 之 前 ， 处 理 靠近 当前 磁头 位 置 的 所 有 请 求 可 能 较为 
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合理 。 这 个 假设 是 最 短 寻 道 时 间 优 先 (Shortest-Seek-Time-First，SSTF ) 算法 的 基础 。SSTF 
算法 选择 处 理 距 离 当 前 磁头 位 置 的 最 短 寻 道 时 间 的 请 求 。 换 名 话说 ，SSTF 选择 最 接近 磁头 
位 置 的 待 处 理 请 求 。 

对 于 上 面 请 求 队列 的 示例 ， 与 开始 磁头 位 置 (53) 的 最 近 请 求 位 于 柱 面 65。 一 旦 位 于 
柱 面 65， 下 个 最 近 请 求 位 于 柱 面 67。 从 那里 ， 由 于 柱 面 37 比 98 还 要 近 ， 所 以 下 次 处 理 
37。 如 此 ， 会 处 理 位 于 柱 面 14 的 请 求 ， 接 着 98，122，124， 最 后 183 (图 12-5 ) 。 这 种 调 
度 算法 的 磁头 移动 只 有 236 个 柱 面 ， 约 为 FCFS 调度 算法 的 磁头 移动 总 数 的 三 分 之 一 多 一 
点 。 显 然 ， 这 种 算法 大 大 提高 了 性 能 。 


队列 =98，183，37，122，14，124，65，67 队列 =98，183，37，122，14，124，65，67 
磁头 开始 于 53 磁头 开始 于 53 
0 14 37 536567 98 122124 183199 0 14 37 536567 98 122124 183 199 





图 12-4 FCFS 磁盘 调度 图 12-5 SSTF 磁盘 调度 


SSTF 调度 本 质 上 是 一 种 最 短 作 业 优先 〈SJF) 调度 ; 与 SIF 调度 一 样 ， 它 可 能 会 导致 一 些 
请 求 的 饥饿 。 请 记 住 ,请求 可 能 随时 到 达 。 假 设 在 队列 中 有 两 个 请 求 ， 分 别针 对 柱 面 14 和 
186。 而 当 处 理 来 自 14 的 请 求 时 ， 另 一 个 靠近 14 的 请 求 来 了 。 这 个 新 的 请 求 会 下 次 处 理 ， 
这 样 位 于 186 的 请 求 需要 等 待 。 当 处 理 该 请 求 时 ， 另 一 个 14 附近 的 请 求 可 能 到 达 。 理 论 上 ， 
相互 接近 的 一 些 请 求 会 连续 不 断 地 到 达 ， 这 样 位 于 186 上 的 请 求 可 能 永远 得 不 到 服务 。 当 等 
待 处 理 请 求 队列 较 长 时 ， 这 种 情况 就 很 可 能 出 现 了 。 

虽然 SSTF 算法 比 FCFS 算法 有 了 相当 改进 ,但 是 并 非 最 优 的 。 对 于 这 个 例子 ， 还 可 以 
做 得 更 好 : 移动 磁头 从 53 到 37 (虽然 37 并 不 是 最 近 的 )， 再 到 14， 再 到 65、67、98 、122、 
124、183。 这 种 策略 的 磁头 移动 的 柱 面 总 数 为 208。 


12.4.3 SCAN 调度 


对 于 扫描 算法 (SCAN algorithm )， 磁 臂 从 磁盘 的 一 端 开 始 ， 向 另 一 端 移动 ; 在 移 过 每 
个 柱 面 时 ， 处 理 请 求 。 当 到 达 磁 盘 的 另 一 端 时 ， 磁 头 移 动 方向 反 转 ， 并 继续 处 理 。 磁 头 连续 
来 回 扫 描 磁 盘 。SCAN 算法 有 时 称 为 电梯 算法 (elevator algorithm )， 因 为 磁头 的 行为 就 像 大 
楼 里 面 的 电梯 ， 先 处 理 所 有 向 上 的 请 求 ， 然 后 再 处 理 相 反方 向 的 请 求 。 

下 面 回 到 前 面 的 例子 来 说 明 。 在 采用 SCAN 来 调度 柱 面 98、183、37、122、14、124、 
65 和 67 的 请 求 之 前 ， 除 了 磁头 的 当前 位 置 ， 还 需 知道 磁头 的 移动 方向 。 假 设 磁头 朝 0 移动 
并 且 磁 头 初始 位 置 还 是 53 ， 磁 头 接 下 来 处 理 37， 然 后 14。 在 柱 面 0 时， 磁头 会 反 转 ， 移 向 
磁盘 的 另 一 端 ， 并 处 理 柱 面 65、67、98、122、124、183 (图 12-6 ) 上 的 请 求 。 如 果 请 求 刚 
好 在 磁头 前 方 加 入 队列 ， 则 它 几 乎 马上 就 会 得 到 服务 ; 如 果 请 求 刚好 在 磁头 后 方 加 入 队列 ， 
则 它 必 须 等 待 ， 直 到 磁头 移 到 磁盘 的 另 一 端 ， 反 转 方向 ， 并 返回 。 
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假设 请 求 柱 面 的 分 布 是 均匀 的 ， 考 虑 当 磁 头 移 到 磁盘 一 端 并 且 反 转 方向 时 的 请 求 密度 。 
这 时 ， 紧 靠 磁头 前 方 的 请 求 相 对 较 少 ， 因 为 最 近 处 理 过 这 些 柱 面 。 磁 盘 另 一 端的 请 求 密度 却 
是 最 多 。 这 些 请 求 的 等 待 时 间 也 最 长 ， 那 么 为 什么 不 先 去 那里 ? 这 就 是 下 一 个 算法 的 想法 。 

s BAZ =98, 183, 37, 122, 14, 124, 65, 67 

循环 扫描 (Cireular SCAN, C-SCAN) 调 0 14 37 536567 98 122124 183 199 
度 是 SCAN 的 一 个 变种 ， 以 提供 更 均匀 的 等 
待 时 间 。 像 SCAN 一 样 ，C-SCAN 移动 磁头 从 
磁盘 一 端 到 磁盘 另 一 端 ， 并 且 处 理 行 程 上 的 请 
求 。 然 而 ， 当 磁头 到 达 另 一 端 时 ， 它 立即 返回 
到 磁盘 的 开头 ， 而 并 不 处 理 任 何 回程 上 的 请 求 
(图 12-7 )。C-SCAN 调度 算法 基本 上 将 这 些 柱 
面 作为 一 个 环 链 ， 将 最 后 柱 面 连 到 首 个 柱 面 。 图 12-6 SCAN 磁盘 调度 


12.4.5 LOOK 调度 


正如 以 上 所 述 ，SCAN 和 C-SCAN 在 磁盘 的 整个 宽度 内 移动 磁 臂 。 实 际 上 ， 这 两 种 算 
法 通常 都 不 是 按 这 种 方式 实施 的 。 更 常见 的 是 ， 磁 臂 只 需 移 到 一 个 方向 的 最 远 请 求 为 止 。 遵 
循 这 种 模式 的 SCAN 算法 和 C-SCAN 算法 分 别称 为 LOOK 和 C-LOOK 调度 ， 因 为 它们 在 癌 
特定 方向 移动 时 查看 是 否 会 有 请 求 (图 12-8 )。 
队列 =98，183，37，122，14，124，65，67 队列 =98，183，37，122，14，124，65，67 


磁头 开始 于 53 磁头 开始 于 53 
0 14 37 536567 98 122124 183199 0 14 37 536567 98 122124 183 199 








图 12-7 C-SCAN 磁盘 调度 图 12-8 C-LOOK 磁盘 调度 


12.4.6 ”磁盘 调度 算法 的 选择 


给 出 了 如 此 多 的 磁盘 调度 算法 ， 如 何 选择 最 佳 的 呢 ? SSTF 是 常见 的 ， 并且 具有 自然 的 
吸引 力 ， 因 为 它 比 FCFS 具有 更 好 的 性 能 。 对 于 磁盘 负荷 较 大 的 系统 ，SCAN 和 C-SCAN K 
现 更 好 ， 因 为 它们 不 太 可 能 造成 饥饿 问题 。 对 于 任何 特定 的 请 求 列表 ， 可 以 定义 最 佳 的 执行 
顺序 ， 但 是 计算 最 佳 调 度 的 所 需 时 间 可 能 得 不 到 补偿 。 然 而 ， 对 于 任何 调度 算法 ， 性 能 在 很 
大 程度 上 取决 于 请 求 的 数量 和 类 型 。 例 如 ， 假 设 队 列 通常 只 有 一 个 待 处 理 请 求 。 这 样 ， 所 有 
调度 算法 都 一 样 ， 因 为 如 何 移动 磁头 只 有 一 个 选择 : 它们 都 与 FCFS 调度 一 样 。 

文件 分 配方 式 可 以 大 大 地 影响 磁盘 服务 的 请 求 。 程 序 读 取 连 续 分 配 文件 时 ， 生 成 多 个 相 
近 位 置 的 磁盘 请 求 ， 导 致 有 限 的 磁头 移动 。 相 比 之 下 ， 链 接 或 索引 的 文件 可 能 包括 分 散在 磁 
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盘 上 的 多 个 块 ， 导 致 更 多 的 磁头 移动 。 

目录 和 索引 块 的 位 置 也 很 重要 。 因 为 每 个 文件 必须 打开 才能 使 用 ， 并 且 打开 文件 需要 
搜索 目录 结构 ， 所 以 目录 会 被 经 常 访问 。 假 设 目录 条 目 位 于 第 一 个 柱 面 ， 而 文件 数据 位 于 最 
后 柱 面 。 在 这 种 情况 下 ,磁头 必须 移 过 整个 磁盘 的 宽度 。 如 果 目 录 条 目 位 于 中 间 柱 面 ， 则 磁 
头 只 需 移 过 不 到 一 半 的 磁盘 。 目 录 和 索引 块 的 内 存 缓存 也 有 助 于 降低 磁 臂 移动 ， 尤 其 对 于 读 
请 求 。 


磁盘 调度 和 SSD 

本 节 讨 论 的 磁盘 调度 算法 主要 关注 : 最 大 限度 地 减少 磁盘 驱动 器 的 磁头 移动 量 。 
SSD， 没 有 移动 磁头 ， 通 常 采 用 简单 的 FCFS 策略 。 例 如 ，Linux 调度 程序 Noop 使 用 
FCFS 策略 ， 并 且 通 过 修改 以 便 合 并 相 邻 请 求 。SSD 的 观测 行为 表示 ， 读 取 服 务 时 间 是 均 
匀 的 ， 但 是 由 于 闪存 属性 ， 写 入 服务 时 间 并 不 是 均匀 的 。 有 些 SSD 调度 程序 利用 这 个 属 
性 ， 并 且 仅 合并 相 邻 的 写 请 求 ， 按 FCFS 顺序 来 处 理 所 有 读 取 请 求 。 


由 于 这 些 复杂 因素 ， 磁 盘 调 度 算法 应 该 作为 操作 系统 的 一 个 单独 模块 ， 这 样 如 果 需 要 ， 
可 以 用 不 同 的 算法 来 替换 。SSTF 或 LOOK 是 默认 算法 的 合理 选择 。 

这 里 描述 的 调度 算法 只 考虑 了 寻 道 距离 。 对 于 现代 磁盘 ， 旋 转 延 迟 几乎 与 平均 寻 道 时 
间 一 样 大 。 不 过 ， 操 作 系 统 很 难 通过 调度 来 改善 旋转 等 待 延迟 ， 因 为 现代 磁盘 没有 透露 逻辑 
块 的 物理 位 置 。 通 过 磁盘 驱动 器 的 控制 器 硬件 内 的 磁盘 调度 算法 ， 磁 盘 制 造 商 一 直 在 缓解 这 
点 。 如 果 操 作 系 统 向 控制 器 发 送 一 批 请 求 ， 那 么 控制 器 可 以 对 这 些 请 求 进行 排队 和 调度 ， 以 
改善 寻 道 时 间 和 旋转 延迟 。 

如 果 VO 性 能 是 唯一 的 考虑 ， 则 操作 系统 会 乐意 将 磁盘 调度 责任 转交 到 磁盘 硬件 。 然 
而 ， 实 际 上 ， 操 作 系 统 对 请 求 服务 的 顺序 还 有 其 他 限制 。 例 如 ， 按 需 调 页 比 应 用 程序 IO 具 
有 更 高 的 优先 级 ， 并 且 当 缓存 将 要 用 尽 可 用 页 面 时 ， 写 比 读 更 重要 。 此 外 ， 可 能 需要 保证 一 
组 磁盘 写 人 的 顺序 ， 使 得 文件 系统 在 系统 骨 溃 时 更 加 稳健 。 假 设 操作 系统 分 配 了 一 个 磁盘 页 
面 给 一 个 文件 ， 应 用 程序 将 数据 写 入 这 个 页 面 ， 但 操作 系统 还 没有 机 会 来 刷新 文件 系统 的 元 
数据 到 磁盘 ， 想 想 可 能 发 生 什 么 。 为 了 适应 这 种 要 求 ， 操 作 系 统 可 能 会 选择 自己 的 磁盘 调 
度 ， 将 请 求 按 批 次 (或 一 个 一 个 地 ， 对 于 有 的 IO 类 型 ) 交 到 磁盘 控制 器 。 


12.5 ”磁盘 管理 


操作 系统 还 负责 磁盘 管理 的 其 他 几 个 方面 。 这 里 讨论 磁盘 初始 化 、 磁 盘 引 导 、 坏 块 恢 
复 等 。 


12.5.1 磁盘 格式 化 


一 个 新 的 磁盘 是 一 个 空白 盘 : 它 只 是 一 个 磁性 记录 材料 的 盘子 。 在 磁盘 可 以 存储 数据 
之 前 ， 它 必须 分 成 扇 区 ， 以 便 磁 盘 控 制 器 能 够 读 写 。 这 个 过 程 称 为 低级 格式 化 (low-level 
formatting) 或 物理 格式 化 (physical formatting)。 低 级 格式 化 为 每 个 扇 区 使 用 特殊 的 数据 
结构 ， 填 充 磁 盘 。 每 个 扇 区 的 数据 结构 通常 由 头 部 、 数 据 区 域 (通常 为 512 字 节 大 小 ) 和 
尾部 组 成 。 头 部 和 尾部 包含 了 一 些 磁 盘 控 制 器 的 使 用 信息 ， 如 扇 区 号 和 纠 错 代 码 ( Error- 
Correcting Code，ECC)。 当 控制 器 通过 正常 VO 写 人 一 个 扇 区 的 数据 时 ，ECC 采用 根据 数 
据 区 域 所 有 字 节 而 计算 的 新 值 来 加 以 更 新 。 在 读 取 一 个 扇 区 时 ，ECC 值 会 重新 计算 ， 并 与 


PIÈ AREH 375 


原来 存储 的 值 相 比较 。 如 果 存 储 和 计算 的 数值 不 一 样 ， 则 表示 扇 区 数据 区 已 损坏 ， 并 且 磁 盘 
鹿 区 可 能 已 坏 (12.5.3 节 )。ECC 是 纠 错 代码 ， 因 为 它 有 足够 的 信息 ， 以 便 在 只 有 少数 数据 
损坏 时 ,控制 器 能 够 识别 哪些 位 已 经 改变 ， 并且 计算 它们 的 正确 值 应 该 是 什么 。 然 后 它 会 
告 可 恢复 的 软 错误 。 当 读 或 写 一 个 扇 区 时 ， 控 制 器 自动 进行 ECC 处 理 。 

大 多 数 磁盘 在 工厂 时 作为 制造 过 程 的 一 部 分 就 已 低级 格式 化 。 这 种 格式 化 能 让 制造 商 
测试 磁盘 ， 并 且 初 始 化 逻辑 块 号 到 无 损 磁 盘 扇 区 的 映射 。 对 于 许多 磁盘 ， 当 磁盘 控制 器 低级 
格式 化 磁盘 时 ， 还 能 指定 在 头 部 和 尾部 之 间 留 下 多 长 的 数据 区 。 通 常 有 几 个 选择 ， 如 256、 
512 和 1024 字 节 等 。 采 用 较 大 扇 区 来 低级 格式 化 磁盘 ， 意 味 着 每 个 磁道 的 鹿 区 数 会 更 少 ， 
但 也 意味 着 每 个 磁道 的 头 部 和 尾部 信息 会 更 少 ， 用 户 数据 的 可 用 空间 会 更 多 。 有 的 操作 系统 
只 能 处 理 512 字 节 的 扇 区 大 小 。 

在 可 以 使 用 磁盘 存储 文件 之 前 ， 操 作 系 统 仍 然 需要 将 自己 的 数据 结构 记录 在 磁盘 上 。 这 
分 为 两 步 。 第 一 步 是 ， 将 磁盘 分 为 由 柱 面 组 成 的 多 个 分 区 ( partition)。 操 作 系 统 可 以 将 每 个 
分 区 作为 一 个 单独 磁盘 。 例 如 ， 一 个 分 区 可 以 存储 操作 系统 的 可 执行 代码 ， 而 另 一 个 分 区 存 
储 用 户 数 据 。 第 二 步 是 逻辑 格式 化 (logical formatting )， 或 创建 文件 系统 。 在 这 一 步 ， 操 作 
系统 将 初始 的 文件 系统 数据 结构 存储 到 磁盘 上 。 这 些 数据 结构 包括 空闲 和 已 分 配 的 空间 和 一 
个 初始 为 空 的 目录 。 

为 了 提高 效率 ， 大 多 数 操作 系统 将 块 组 合 在 一 起 变 成 更 大 的 块 ， 经 常 称 为 得 (cluster). 
磁盘 IO 按 块 完成 ， 而 文件 系统 VO 按 复 完成 ， 有 效 确 保 了 IO 具有 更 多 的 顺序 访问 和 更 少 
的 随机 访问 的 特点 。 

有 些 操作 系统 允许 特殊 程序 将 磁盘 分 区 作为 逻辑 块 的 一 个 大 的 有 序数 组 ， 而 没有 任何 文 
件 系统 数据 结构 。 这 个 数组 有 时 称 为 原始 磁盘 (raw disk)， 这 个 数组 的 IO 称 为 原始 |/O(raw 
IO)。 例 如 ， 有 些 数据 库 系 统 喜 欢 使 用 原始 TO， 因 为 能 够 允许 它们 控制 每 条 数据 库 记 录 存 
储 的 精确 磁盘 位 置 。 原 始 IO 绕 过 所 有 文件 系统 服务 ， 如 缓冲 区 缓存 、 文 件 锁 定 、 预 取 、 空 
间 分 配 、 文 件 名 和 目录 等 。 虽 然 某 些 应 用 程序 可 以 通过 原始 分 区 来 实现 自己 特殊 的 更 为 高 效 
的 存储 服务 ,但 是 大 多 数 应 用 程序 在 使 用 常规 文件 系统 服务 时 会 执行 的 更 好 。 


12.5.2 引导 块 


为 了 开始 运行 计算 机 ， 如 打开 电源 或 重启 时 ， 它 必须 有 一 个 初始 程序 来 运行 。 这 个 初始 
自 举 (bootstrap) 程序 往往 很 简单 。 它 初始 化 系统 的 所 有 部 分 ， 从 CPU 寄存 器 到 设备 控制 器 
和 内 存 ， 接 着 启动 操作 系统 。 为 此 ， 自 举 程序 找到 磁盘 上 的 操作 系统 内 核 ， 加 载 到 内 存 ， 并 
转 到 起 始 地 址 以 便 开 始 操作 系统 的 执行 。 

对 于 大 多 数 计算 机 ， 自 举 程 序 处 在 只 读 存 储 器 (Read-Only Memory, ROM) 中 。 这 个 
位 置 非常 方便 ， 因 为 ROM 不 需要 初始 化 而 且 位 于 固定 位 置 ， 这 便于 处 理 器 在 上 电 或 复位 
时 开始 执行 。 并 且 ， 由 于 ROM 是 只 读 的 ， 不 会 受到 计算 机 病毒 的 影响 。 它 的 问题 是 ， 改 变 
这 种 自 举 代码 需要 改变 ROM 硬件 芯片 。 因 此 ， 大 多 数 系统 存储 一 个 极 小 的 自 举 程序 在 启动 
ROM 中 ， 它 的 作用 是 从 磁盘 上 调 人 完整 的 引导 程序 。 这 个 完整 的 引导 程序 可 以 轻松 改变 : 
可 以 简单 地 将 新 的 版 本 写 到 磁盘 。 完 整 的 引导 程序 存储 在 磁盘 固定 位 置 上 的 “启动 块 ” 。 具 
有 启动 分 区 的 磁盘 称 为 启动 磁盘 (boot disk) 或 系统 磁盘 (system disk). 

引导 ROM 内 的 代码 指示 磁盘 控制 器 将 引导 块 读 到 内 存 〈 这 时 不 加 载 设 备 驱动 程序 )， 然 
后 开始 执行 代码 。 完 整 的 自 举 程序 比 引导 ROM 的 自 举 程序 更 加 复杂 。 它 可 以 从 非 固定 的 
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磁盘 位 置 处 加 载 整 个 操作 系统 ， 并 且 开 始 运 行 操作 系统 。 即 使 如 此 ， 完 整 的 自 举 程序 可 能 
很 小 。 

下 面 以 Windows 为 例 ， 分 析 引 导 过 程 。 首 先 ， 请 注意 ，Windows 允许 将 磁盘 分 为 多 个 
分 区 ; 有 一 个 分 区 为 引导 分 区 (boot partition)， 包 含 操 作 系 
统 和 设备 驱动 程序 。Windows 系统 将 引导 代码 存在 磁盘 的 
第 一 个 扇 区 ， 它 称 为 主 引 导 记 录 (Master Boot Record, 分 区 1 
MBR)。 引 导 首 先 运行 驻 留 在 系统 ROM 内 存 中 的 代码 。 这 分区? 
个 代码 指示 系统 从 MBR 中 读 取 引导 代码 。 除 了 包含 引导 代 
码 ，MBR 包含 : 一 个 表 (以 列 出 磁盘 分 区 ) 和 一 个 标志 (以 P | 
指示 从 哪个 分 区 引导 系统 )， 如 图 12-9 所 示 。 当 系统 找到 引 分 区 4 
导 分 区 ， 它 读 取 分 区 的 第 一 个 鹿 区 ， 称 为 引导 扇 区 (boot 
sector)， 并 继续 余下 的 引导 过 程 ， 这 包括 加 载 各 种 子 系统 和 
系统 服务 。 


12.5.3 Ii 


因为 磁盘 具有 移动 部 件 并 且 容 错 差 〈 请 记 住 ， 磁 头 恰好 飞行 在 磁盘 表面 上 方 )， 容 易 出 
现 故障 。 有 时 ， 故 障 是 彻底 的 ; 在 这 种 情况 下 ， 需 要 更 换 磁 盘 ， 并 且 从 备份 介质 上 将 其 内 容 
恢复 到 新 的 磁盘 。 更 为 常见 的 是 ， 一 个 或 多 个 遍 区 坏 掉 。 大 多 数 磁盘 出 厂 时 就 有 坏 块 (bad 
block)。 这 些 坏 块 的 处 理 多 种 多 样 ， 取 决 于 使 用 的 磁盘 和 控制 器 。 

对 于 简单 磁盘 ， 如 采用 IDE 控制 器 的 磁盘 ， 可 以 手动 处 理 坏 块 。 一 种 策略 是 ， 在 格式 
化 磁盘 时 扫描 磁盘 以 便 发 现 坏 块 。 发 现 的 任何 坏 块 ， 标 记 为 不 可 用 ， 以 便 文 件 系统 不 再 分 配 
它们 。 如 果 在 正常 操作 时 块 变 坏 了 ， 则 必须 人 工 和 运行 特殊 程序 (如 Linux 命令 badlocks )， 
以 便 搜索 坏 块 并 锁定 它们 。 坏 块 中 的 数据 通常 会 丢失 。 

更 为 复杂 的 磁盘 在 恢复 坏 块 时 更 为 智能 。 它 的 控制 器 维护 磁盘 内 的 坏 块 列表 。 这 个 列表 
在 出 厂 低 级 格式 化 时 初始 化 ， 并 且 在 磁盘 使 用 寿命 内 更 新 。 低 级 格式 化 将 一 些 块 放 在 一 边 作 
为 备用 ， 操 作 系 统 看 不 到 这 些 块 。 控 制 器 可 以 采用 备用 块 来 逻辑 地 替代 坏 块 。 这 种 方案 称 为 
AKHA (sector sparing) Sj KF (sector forwarding) o 

典型 的 坏 扇 区 事务 可 能 如 下 : 

© 操作 系统 尝试 读 取 逻辑 块 87。 

o 控制 器 计算 ECC， 并且 发 现 局 区 是 坏 的 。 它 疝 操 作 系 统 报告 这 一 发 现 。 

e 当下 次 重启 操作 系统 时 ， 可 以 运行 特殊 命令 ， 以 告诉 控制 器 通过 备用 块 蔡 代 坏 块 。 

e 之 后 ,每 当 系统 试图 访问 逻辑 块 87 时 ， 这 一 请 求 转换 成 控制 器 的 替代 扇 区 的 地 址 。 

请 注意 ， 控 制 器 的 这 种 重 定向 可 能 会 使 操作 系统 的 磁盘 调度 算法 失效 。 为 此 ， 大 多 数 磁 
盘 在 格式 化 时 为 每 个 柱 面 保留 了 少量 的 备用 块 ， 还 保留 了 一 个 备用 柱 面 。 当 需要 重新 映射 坏 
块 时 ， 控 制 器 尽 可 能 地 使 用 同一 柱 面 的 备用 扇 区 。 

作为 扇 区 备用 的 替代 方案 ， 有 些 控制 器 可 以 采用 扇 区 滑动 (sector slipping) KHIM 
块 。 这 里 有 一 个 例子 : 假定 逻辑 块 17 变 坏 ， 并 且 第 一 个 可 用 的 备用 块 在 扇 区 202 之 后 。 然 
后 ， 扇 区 滑动 重新 映射 从 17 到 202 的 所 有 扇 区 ， 将 它们 全 部 下 移 一 个 鹿 区 。 也 就 是 说 ， 扇 
区 202 复制 到 备用 扇 区 ， 扇 区 201 到 202，200 到 201， 依 次 类 推 ， 直 到 扇 区 18 复制 到 扇 区 
19。 按 这 种 方式 滑动 扇 区 释放 扇 区 18 的 空间 ， 以 使 扇 区 17 能 够 映射 到 它 。 





图 12-9 Windows 的 磁盘 引导 
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坏 块 的 更 换 一 般 不 是 全 自动 的 ， 因 为 坏 块 的 数据 通常 会 丢失 。 一 些 软 错误 可 能 触发 一 个 
进程 ， 以 便 复制 块 数据 和 备份 或 滑动 块 。 然 而 ,不 可 恢复 的 硬 错误 (hard error) 导致 数据 丢 
失 。 因 此 ， 任 何 使 用 坏 块 的 文件 必须 修复 (如 从 备份 磁带 中 恢复 )， 而 且 通 常 需要 人 工 干 预 。 


12.6 ”交换 空间 管理 


8.2 节 首 次 讨论 了 交换 ， 即 在 磁盘 和 内 存 之 间 移 动 整个 进程 。 当 物理 内 存 的 数量 达到 临 
界 低 点 ， 并 且 进 程 从 内 存 移 到 交换 空间 以 便 释放 内 存 空间 时 ， 就 会 出 现 交 换 。 现 实 中 ， 现 代 
操作 系统 很 少 按 这 种 方式 实现 交换 。 相 反 ， 系 统 将 交换 与 虚拟 内 存 技术 (第 9 章 ) 和 交换 页 
面 (而 不 一 定 是 整个 进程 ) 结合 起 来 。 事 实 上， 有些 系统 现在 互 换 使 用 术语 “交换 ”和 “分 
页 ”， 这 也 反映 了 这 两 个 概念 的 合并 。 

交换 空间 管理 ( swap-space management) 是 操作 系统 的 另 一 底层 任务 。 虚 拟 内 存 采用 磁 
盘 空 间作 为 内 存 的 扩展 。 由 于 磁盘 访问 比 内 存 访问 慢 得 多 ， 所 以 使 用 交换 空间 显著 降低 系统 
性 能 。 交 换 空间 的 设计 和 实现 的 主要 目标 是 ， 为 虚拟 内 存 提供 最 佳 否 吐 量 。 这 里 讨论 ， 如 何 
使 用 交换 空间 ， 交 换 在 磁盘 上 的 什么 位 置 ， 以 及 如 何 管理 交换 空间 。 


12.6.1 ”交换 空间 的 使 用 


不 同 的 操作 系统 使 用 交换 空间 的 方式 也 可 不 同 ,这 取决 于 采用 的 内 存 管理 算法 。 例 如 ， 
实现 交换 的 系统 可 以 使 用 交换 空间 来 保存 整个 进程 映像 ， 包 括 代码 和 数据 段 。 分 页 系统 可 能 
只 是 存储 换 出 内 存 的 页 面 。 系 统 所 需 交 换 空间 的 数量 可 以 是 数 MB 到 数 GB 的 磁盘 空间 ， 这 
取决 于 物理 内 存 的 多 少 、 支 持 虚拟 内 存 的 多 少 、 内 存 使 用 方式 等 。 

请 注意 ， 交 换 空间 数量 的 高 估 要 比 低估 更 为 安全 ， 因 为 当 系 统 用 完了 交换 空间 时 ， 可 能 
迫使 进程 中 止 或 使 得 整个 系统 死机 。 高 估 只 是 浪费 了 一 些 空间 (本 来 可 用 于 存储 文件 ), 但 
它 没有 其 他 的 损害 。 有 些 系统 推荐 交换 空间 的 数量 。 例 如 ，Solaris 建议 设置 交换 空间 等 于 超 
过 分 页 物理 内 存 的 虚拟 内 存 数 量 。 过 去 ，Linux 建议 设置 交换 空间 数量 为 物理 内 存 数 量 的 两 
fo 现在， 这 个 限制 已 经 没有 了 ， 大 多 数 Linux 系统 都 采用 了 更 少 的 交换 空间 。 

有 的 操作 系统 ， 如 Linux， 人 允许 使 用 多 个 交换 空间 ， 包 括 文件 和 专用 交换 分 区 。 这 些 交 
换 空间 通常 放 在 不 同 的 磁盘 上 ， 这 样 分 页 和 交换 的 VO 系统 的 负荷 可 以 分 散在 各 个 系统 IO 
的 带宽 上 。 


12.6.2 ”交换 空间 位 置 


交换 空间 位 置 可 有 两 个 : 它 可 以 位 于 普通 文件 系统 之 上 ， 或 者 它 可 以 是 一 个 单独 的 磁盘 
分 区 。 如 果 交 换 空间 只 是 文件 系统 内 的 一 个 大 的 文件 ， 则 可 以 采用 普通 文件 系统 程序 来 创建 
它 、 命 名 它 以 及 分 配 它 的 空间 。 这 种 方法 虽然 实现 容易 ， 但 是 效率 较 低 。 目 录 结 构 和 磁盘 分 
配 数 据 结 构 的 浏览 需要 时 间 和 (可 能 ) 额外 的 磁盘 访问 。 外 部 碎片 可 能 由 于 在 读 写 进 程 镜像 
时 强制 多 次 寻 道 ， 大 大 地 增加 了 交换 时 间 。 通 过 将 块 位 置信 息 缓存 在 物理 内 存 中 ， 以 及 采用 
特殊 工具 为 交换 文件 分 配 物 理 上 连续 的 块 等 技术 ， 可 以 改善 性 能 ， 但 是 遍历 文件 系统 数据 结 
构 的 开销 仍然 存在 。 

或 者 ， 可 以 在 单独 的 原始 分 区 (raw partition) 上 创建 交换 空间 。 这 里 不 存放 文件 系统 和 
目录 的 结构 。 相 反 ， 通 过 单独 的 交换 空间 存储 管理 器 ， 从 原始 分 区 上 分 配 和 取消 分 配 块 。 这 
种 管理 器 可 以 采用 针对 速度 优化 (而 不 是 存储 效率 优化 )， 因 为 (在 使 用 时 ) 交换 空间 比 文件 
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系统 访问 更 加 频繁 。 内 部 碎片 可 能 增加 ， 但 是 这 种 折 中 是 可 以 接受 的 ， 因 为 交换 空间 内 的 数 
据 的 存储 时 间 通 常 要 比 文件 系统 的 文件 的 存储 时 间 更 短 。 由 于 交换 空间 在 启动 时 会 重新 初始 
化 ， 任 何 碎 片 都 是 短暂 的 。 原 始 分 区 方法 在 磁盘 分 区 时 创建 固定 数量 的 交换 空间 。 增 加 更 多 
交换 空间 需要 重新 进行 磁盘 分 区 (可 能 涉及 移动 或 删除 其 他 文件 系统 ， 以 及 利用 备份 以 恢复 
文件 系统 )， 或 者 在 其 他 地 方 增加 男 一 交换 空间 。 

有 的 操作 系统 较为 灵活 ， 可 以 采用 原始 分 区 空间 和 文件 系统 空间 进行 交换 。Linux 就 是 
这 样 的 例子 : 策略 和 实现 是 分 开 的 ， 系 统管 理 员 可 以 决定 使 用 何 种 类 型 。 它 的 权衡 是 ， 文 件 
系统 分 配 和 管理 的 便利 和 原始 分 区 交换 的 性 能 。 


12.6.3 ”交换 空间 管理 : 例子 


通过 分 析 各 种 UNIX 交换 和 分 页 的 发 展 ， 可 以 说 明 交 换 空间 是 如 何 使 用 的 。 传 统 的 
UNIX 内 核实 现 了 交换 ， 以 便 在 连续 磁盘 区 域 和 内 存 之 间 复 制 整 个 进程 。 随 着 分 页 硬件 的 出 
现 ，UNIX 后 来 演变 成 混合 采用 交换 和 分 页 。 

对 于 Solaris! ( Sun0S)， 设 计 人 员 改 变 了 标准 的 UNIX 方法 ， 以 改善 效率 和 反映 技术 发 
展 。 当 进程 执行 时 ， 包 含 代码 的 文本 段 页 面 从 文件 系统 中 调和 人， 在 内 存 中 访问 ， 在 需要 换 出 
时 就 会 丢弃 。 再 次 从 文件 系统 中 读 人 人 页面， 要 比 先 写 到 交换 空间 再 从 那里 重读 ， 更 为 高 效 。 
交换 空间 仅仅 用 作 备 份 以 存储 匿名 内 存 (anonymous memory) 页 面 ， 包 括 给 栈 、 堆 和 进程 未 
初始 化 数据 等 的 分 配 内 存 。 

Solaris 后 来 的 更 高 版 本 又 作 了 更 多 改变 。 最 大 的 改变 是 ，Solaris 只 有 在 页 面 被 强制 换 
出 物理 内 存 时 ， 而 不 是 在 首次 创建 虚拟 内 存 页 面 时 ， 才 分 配 交 换 空 间 。 这 种 方案 提高 了 现代 
计算 机 的 性 能 ， 因 为 它们 比 旧 系统 拥有 更 多 的 物理 内 存 ， 并 且 换 页 更 少 。 

Linux 类 似 于 Solaris， 因 为 交换 空间 仅 用 于 匿名 内 存 ， 即 没有 任何 文件 支持 的 内 存 。 
Linux 允许 建立 一 个 或 多 个 交换 区 。 交 换 区 可 以 是 普通 文件 系统 的 交换 文件 ， 或 原始 交换 
分 区 。 每 个 交换 区 包含 一 系列 的 4KB AY RB (page slot)， 用 于 存储 交换 页 面 。 每 个 交换 
区 关联 着 一 个 交换 映射 (swap map)， 即 整 型 计数 器 的 一 个 数组 ， 其 中 每 个 整数 对 应 于 交 
换 区 的 页 槽 。 如 果 计 数 器 值 为 0， 则 对 应 页 
W KF 0 的 值 表 示 页 权 被 交换 页 面 占 
据 。 计 数 器 的 值 表示 交换 页 面 的 映射 数量 。 
例如 ， 值 3 表示 交换 页 面 映射 到 3 个 不 同 进 
FE (例如 交换 页 面 存 储 3 个 进程 共享 的 内 存 


IX), Linux 系统 内 的 交换 数据 结构 如 
图 12-10 所 示 。 图 12-10 Linux 系统 交换 的 数据 结构 


交换 区 域 











12.7 RAID 结构 


磁盘 驱动 器 继续 变 得 更 小 更 便宜 ， 如 今 在 一 台 计 算 机 系统 上 连接 许多 磁盘 从 经 济 上 来 说 
已 经 可 行 了 。 一 个 系统 拥有 大 量 磁盘 ， 就 有 机 会 改善 数据 的 读 写 速率 ， 因 为 磁盘 操作 可 以 并 
行进 行 。 此 外 ， 这 种 设置 提供 能 力 ， 以 提高 数据 存储 的 可 靠 性 ， 因 为 元 余 信息 可 以 存储 在 多 
个 磁盘 上 。 因 此 ， 单 个 磁盘 的 故障 不 会 导致 数据 丢失 。 多 种 磁盘 组 织 技术 统称 为 磁盘 宛 余 阵 
列 (Redundant Arrays of Independent Disk, RAID) 技术 ,通常 用 于 处 理性 能 与 可 靠 性 问题 。 
过 去 ，RAID 是 由 小 且 便 宜 的 磁盘 组 成 ， 可 作为 大 上 且 昂贵 的 磁盘 的 有 效 蔡 代 品 。 现 在 ， 
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RAID 的 使 用 主要 是 因为 高 可 靠 性 和 高 数据 传输 率 ， 而 不 是 经 济 原因 。 因 此 ，RAID 中 的 了 I 
表示 “独立 ”(independent) 而 不 是 “廉价 ” (inexpensive)。 


RAID 结构 

RAID 存储 结构 具有 多 种 方式 。 例 如 ， 系 统 可 以 将 磁盘 直接 连 到 总 线 上 。 在 这 种 情 
况 下 ,操作 系统 或 系统 软件 可 以 实现 RAID HH. 或者， 智能 主机 控制 器 可 以 控制 多 个 
连接 的 磁盘 ， 可 以 通过 硬件 来 实现 这 些 磁盘 的 RAID。 最 后 ， 可 以 使 用 存储 阵列 ( storage 
array) 或 RAID 阵列 (RAID array), RAID 阵列 是 一 个 独立 的 单元 ， 具 有 自己 的 控制 器 、 
BRAG GT) 和 磁盘 ; 通过 一 个 或 更 多 个 标准 控制 器 (例如 ，FC) 连 到 主机 。 这 种 常 
见 设置 允许 ,没有 RAID 功能 的 操作 系统 或 软件 具有 RAID 保护 的 磁盘 。 由 于 简单 性 和 灵 
活性 ， 它 甚至 用 于 拥有 RAID 软件 层 的 系统 。 


12.7.1 ”通过 元 余 提高 可 靠 性 


首先 分 析 RAID 的 可 靠 性 。N 个 磁盘 内 的 某 个 磁盘 故障 的 机 会 远 远 高 于 单个 特定 磁盘 故 
障 的 机 会 。 假 设 单个 磁盘 的 平均 故障 时 间 (mean time to failure) 为 100 000 小 时 ， 那 么 100 
个 磁盘 中 的 某 个 磁盘 的 平均 故障 时 间 为 100 000/100 = 1000 小 时 或 41.66 天 ， 这 并 不 长 ! 如 
果 只 存储 数据 的 一 个 副本 ， 则 每 个 磁盘 故障 会 导致 丢失 大 量 数据 ， 这 样 高 的 数据 丢失 率 是 不 
可 接受 的 。 

可 靠 性 问题 的 解决 是 引入 宛 余 (redundancy); 存储 额外 信息 ， 这 是 平常 不 需要 的 ， 但 是 
在 磁盘 故障 时 可 以 用 于 重建 丢失 的 信息 。 因 此 ， 即 使 磁盘 故障 ， 数 据 也 不 会 丢失 。 

最 为 简单 (但 最 昂贵 ) 的 引入 匈 余 的 方法 是 ， 重复 每 个 磁盘 。 这 种 技术 称 为 镜像 
( mirroring)。 由 于 镜像 ， 每 个 逻辑 磁盘 由 两 个 物理 磁盘 组 成 ， 并 且 每 次 写 人 都 在 两 个 磁盘 上 
进行 。 这 称 为 镜像 卷 ( mirrored volume)。 如 果 卷 中 的 某 个 磁盘 故障 ， 则 可 以 从 另 一 卷 中 读 
取 。 只 有 在 第 一 个 损坏 磁盘 没有 替换 之 前 第 二 个 磁盘 又 出 错 ， 才 会 丢失 数据 。 

镜像 卷 的 平均 故障 时 间 (这 里 的 故障 是 数据 丢失 ) 取决 于 两 个 因素 。 一 个 是 ， 单 个 磁盘 
的 平均 故障 时 间 。 男 一 个 是 平均 维修 时 间 (mean time to repair)， 这 是 用 于 替换 损坏 磁盘 并 
恢复 其 上 数据 的 平均 时 间 。 假 设 两 个 磁盘 的 故障 是 独立 的 ; 即 一 个 磁盘 故障 与 另 一 个 磁盘 故 
障 没有 关联 。 那 么 ， 如 果 单 个 磁盘 的 平均 故障 时 间 为 100 000 小 时 ， 并 且 平 均 修 补 时 间 为 10 
小 时 ， 则 镜像 磁盘 系统 的 平均 数据 丢失 时 间 (mean time to data loss) 为 100 0007/ (2x10)= 
500 x 10° 小 时 或 57 000 年 。 

需要 注意 ， 磁 盘 故 障 的 独立 性 假设 并 不 真正 成 立 。 电 源 故 障 和 自然 灾害 ， 如 地 震 、 火 
灾 、 水 灾 ， 可 能 导致 同时 损坏 两 个 磁盘 。 另 外 ,成 批 生产 磁盘 的 制造 缺陷 可 以 导致 相关 故 
障 。 随 着 磁盘 老化 ， 故 障 概率 增加 ， 从 而 增加 了 在 替代 第 一 磁盘 时 第 二 个 磁盘 故障 的 概率 。 
然而 ， 尽 管 所 有 这 些 考 虑 ， 镜 像 磁 盘 系 统 仍 比 单个 磁盘 系统 提供 更 高 的 可 靠 性 。 

电源 故障 是 一 个 特别 的 关注 点 ， 因 为 它们 比 自然 灾害 更 为 常见 。 即 使 使 用 磁盘 镜像 ， 如 
果 对 两 个 磁盘 写 人 同样 的 块 ， 而 在 两 块 完 全 写 人 之 前 电源 故障 ， 则 这 两 块 可 能 处 于 不 一 致 
的 状态 。 这 个 问题 的 一 种 解决 方法 是 ， 先 写 一 个 副本 ， 再 写 下 一 个 。 另 一 个 是 ， 为 RAID 阵 
列 添 加 固态 非 易 失 性 RAM ( Nonvolatile RAM, NVRAM) 的 缓存 。 这 种 写 回 (write-back) 
高 速 缓存 在 电源 故障 时 会 得 到 保护 ; 这 样 ， 假 设 NVRAM 有 某 种 错误 避免 和 纠 错 功 能 ， 如 
ECC 和 镜像 ， 写 人 可 以 认为 在 这 一 阶段 已 完成 。 
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12.7.2 ”通过 并 行 处 理 提高 性 能 


现在 分 析 多 个 磁盘 的 并 行 访问 如 何 改善 性 能 。 通 过 磁盘 镜像 ， 读 请 求 的 处 理 速度 可 以 加 
倍 ， 因 为 读 请 求 可 以 送 到 任 一 磁盘 〈 只 要 成 对 的 两 个 磁盘 都 能 工作 ， 情 况 几 乎 总 是 这 样 的 )。 
例如 ， 每 次 读 取 的 传输 速率 是 与 单个 磁盘 系统 相同 ， 但 是 每 单位 时 间 的 读 取 次 数 翻 了 一 番 。 

采用 多 个 磁盘 ， 通 过 将 数据 分 散在 多 个 磁盘 上 ， 也 可 以 改善 传输 率 。 最 简单 形式 是 ， 数 
据 分 条 (data striping) 包括 将 每 个 字 节 分 散在 多 个 磁盘 上 ; 这 种 分 条 称 为 位 级 分 条 (bit-level 
striping)。 例 如 ， 如 果 有 8 个 磁盘 ， 则 可 以 将 每 个 字 节 的 位 i 写 到 磁盘 i 上。 这 8 个 磁盘 可 
作为 单个 磁盘 使 用 ， 其 局 区 为 正常 局 区 的 8 倍 ， 更 为 重要 的 是 它 具 有 8 倍 的 访问 率 。 每 个 磁 
盘 参 与 每 个 访问 ( 读 或 写 ) ; 这 样 每 秒 所 能 处 理 的 访问 数量 与 单个 磁盘 的 一 样 ， 但 是 每 次 访 
问 的 数据 在 同样 时 间 内 为 单个 磁盘 系统 的 8 倍 。 

位 级 分 条 可 以 推广 到 其 他 磁盘 数量 ， 它 或 者 是 8 的 倍数 或 者 除 以 8。 例如 ， 如 果 采 用 4 
个 磁盘 阵列 ， 则 每 个 字 节 的 位 i 和 位 4+ i 可 存在 磁盘 i 上 。 此 外， 分 条 不 必 按 位 级 来 进行 。 
例如 ， 对 于 块 级 分 条 ( block-level striping)， 文 件 的 块 可 以 分 散在 多 个 磁盘 上 ; 对 于 n 个 磁 
A, 文件 的 块 i 可 存在 磁盘 (i mod n)+ 1 上 。 其 他 分 条 级 别 ， 如 单个 扇 区 或 单 块 扇 区 的 字 
节 ， 也 是 可 能 的 。 块 级 分 条 是 最 常见 的 。 

磁盘 系统 的 并 行 化 ， 通 过 分 条 实现 ， 有 两 个 主要 目标 : 

e 通过 负载 平衡 ， 增 加 了 多 个 小 访问 ( 即 页 面 访问 ) 的 吞吐 量 。 

e 降低 大 访问 的 响应 时 间 。 


12.7.3 RAID 级别 


镜像 提供 高 可 靠 性 ， 但 是 昂贵 。 分 条 提供 高 n CR as (ES 
数据 传输 率 ， 但 并 未 改善 可 靠 性 。 通 过 磁盘 分 条 SSS 
和 “奇偶 ”位 (下 面 将 要 讨论 )， 在 低 代价 下 提供 


a) RAID 0: 非 宛 余 条 带 





元 余 可 以 有 多 种 方案 。 erzin DODD 
中 ， 并 分 成 不 同 的 级 别 ， 称 为 RAID 级 别 ( RAID b) RADI; Rake 
level)。 这 里 讨论 各 种 级 别 ;图 12-11 显示 了 它们 


(EF, 已 表示 纠 铺位 ， 而 C 表示 数据 的 第 二 副本 )。 c) RAID 2: 内 存 式 错误 纠正 码 
对 于 图 中 所 示 的 各 种 情况 ,4 个 磁盘 用 于 存储 数据 ， ~ oo oD > > 
额外 磁盘 用 于 存储 元 余 信息 以 便 故障 恢复 。 
e RAID 级 别 0 : RAID 级 别 0 为 具有 块 分 条 
但 没有 宛 余 (如 镜像 或 奇偶 位 ) 的 磁盘 阵 
列 ， 如 图 12-11a 所 示 。 
e RAID 级 别 1: RAID 级 别 1 指 磁盘 镜像 。 
图 12-11b 显示 了 这 种 镜像 组 织 。 
e RAID 级 别 2: RAID 级 别 2 也 称 为 内 存 方 


式 的 差错 纠正 (ECC) 组 织 。 内 存 系统 长 pp Fre 
期 以 来 实现 了 基于 奇偶 位 的 错误 检测 。 内 eu 
存 系统 内 的 每 个 字 节 都 有 一 个 关联 的 奇 p) RAID 6: P+ 
偶 位 ， 以 记录 字 节 中 为 1 的 个 数 是 偶数 图 12-11 RAID 的 级 别 
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WAFL (第 11 章 讨 论 的 ) 采用 RAID 级 别 4， 因 为 这 个 RAID 级 别 允 许 磁盘 无 颖 
加 到 RAID 集合 。 如 果 加 入 的 磁盘 的 块 都 初始 化 为 0， 则 奇偶 校 验 值 不 变 ， 且 RAID 
集合 仍然 正确 。 

RAID 级 别 5 : RAID 级 别 5 或 块 交 错 分 布 奇偶 校 验 结构 ， 不 同 于 级 别 4 : 它 将 数据 
和 奇偶 校 验 分 散在 所 有 N+ 1 个 磁盘 上 ， 而 不 是 将 数据 存在 YX 个 磁盘 上 并 且 奇 偶 校 
验 存在 单个 磁盘 上 。 对 于 每 块 ， 一 个 磁盘 存储 奇偶 校 验 ， 而 其 他 的 存储 数据 。 例 如 ， 
对 于 5 个 磁盘 的 阵列 ， 第 n 块 的 奇偶 校 验 保存 在 磁盘 (amod5)+ 1 E; 其 他 4 个 磁 
盘 的 第 n 块 保存 该 奇偶 块 对 应 的 真正 数据 。 这 种 方案 如 图 12-11f 所 示 ， 其 中 尸 分 布 
在 所 有 磁盘 上 。 奇 偶 校 验 块 不 能 保存 同一 磁盘 的 块 的 奇偶 校 验 ， 因 为 磁盘 故障 会 导 
致 数据 及 奇偶 校 验 的 丢失 ， 因 此 无 法 恢复 损失 。 通 过 将 奇偶 校 验 分 布 在 所 有 磁盘 上 ， 
RAIDS 避免 了 RAID4 方案 的 对 单个 奇偶 校 验 磁 盘 的 潜在 过 度 使 用 。RAID5 是 最 常见 
的 奇偶 校 验 RAID 系统 。 

RAID 级 别 6 : RAID 级 别 6， 也 称 为 PHO ARAR (P +Q redundancy scheme), 与 
RAID 级 别 5 非常 类 似 ,但 是 保存 了 额外 宛 余 信息 以 防范 多 个 磁盘 故障 。 除 了 使 用 奇 
偶 校 验 ， 可 以 使 用 差错 纠正 码 ， 如 Read-Solomon 码 (Reed-Solomon code)。 在 图 
12-11g 所 示 的 方案 中 ， 每 4 位 的 数据 使 用 了 2 位 的 宛 余 数据 ， 而 不 是 像 级 别 5 那样 
的 一 个 奇偶 位 ， 这 个 系统 可 以 容忍 两 个 磁盘 故障 。 

RAID 级 别 0+1 和 1+0 : RAID 级 别 0+1 为 RAID 级别 0 和 级 别 1 的 组 合 。RAID 0 
提供 了 性 能 ， 而 RAID 1 提供 了 可 靠 性 。 通 常 ， 它 比 RAID 5 有 更 好 的 性 能 。 它 适用 
于 高 性 能 和 高 可 靠 性 的 环境 。 不 过 ， 与 RAID 1 一 样 ， 存 储 所 需 的 磁盘 数量 也 加 倍 
了 ， 所 以 也 相对 昂贵 。 对 于 RAID 0+1， 一 组 磁盘 分 成 条 ， 每 一 条 镜像 到 另 一 条 。 

另 一 正在 商业 化 的 RAID 选项 是 RAID 1+0， 即 磁盘 先 镜像 ， 再 分 条 。 这 种 
RAID 比 RAID 0+1 有 一 些 理论 上 的 优点 。 例 如 ， 如 果 RAID 0+1 中 的 一 个 磁盘 故障 ， 
那么 整个 条 就 不 能 访问 ， 虽 然 所 有 其 他 条 可 用 。 对 于 RAID 1+0， 如 果 单 个 磁盘 不 可 
H, 但 其 镜像 仍然 如 所 有 其 他 磁盘 一 样 可 用 (图 12-12 )。 






a ) 单个 磁盘 故障 的 RAID 0 +1 


b) 单个 磁盘 故障 的 RAID 1+ 0 
图 12-12 RAID 0+1 和 RAID 1+0 
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这 里 描述 的 基本 RAID 方案 有 很 多 变种 。 因 此 ， 对 于 不 同 RAD 级 别 的 精确 定义 ， 可 能 
存在 一 定 的 混淆 。 
RAID 实现 是 男 一 可 变 之 处 。 考 虑 RAD 实现 的 如 下 层次 。 
o 卷 管理 软件 可 以 在 内 核 或 系统 软件 层 中 实现 RAID。 在 这 种 情况 下 ， 存 储 硬 件 可 以 提 
供 最 少 的 功能 ， 但 仍 是 完整 RAID 解决 方案 的 一 部 分 。 奇 偶 校 验 RAID 的 软件 实现 相 
当 慢 ， 因 此 通常 采用 RAID 0、RAID 1 或 RAID 0+1。 
e RAID 实现 可 以 采用 主机 总 线 适 配器 (Host Bus-Adapter, HBA) 硬件 。 只 有 直接 连 
到 HBA 的 磁盘 才能 成 为 给 定 RAID 集 的 一 部 分 。 这 个 解决 方案 的 成 本 很 低 ， 但 不 是 
很 灵活 。 
© RAID 实现 可 以 采用 存储 阵列 硬件 。 存 储 阵 列 可 以 创建 各 种 级 别 的 RAID 集 ， 甚 至 可 
以 将 这 些 集合 分 成 更 小 的 卷 ， 再 提供 给 操作 系统 。 操 作 系 统 只 需要 在 每 个 卷 上 实现 
文件 系统 。 阵 列 可 有 多 个 连接 可 用 ， 或 可 以 是 SAN 的 一 部 分 ， 允 许多 个 主机 利用 阵 
列 功能 。 
e RAID 实现 可 以 采用 磁盘 虚拟 化 设备 的 SAN 互 连 层 。 在 这 种 情况 下 ， 设 备 位 于 主机 
和 存储 之 间 。 它 接受 来 自 服务 器 的 命令 ， 并 管理 访问 存储 。 例 如 ， 通 过 将 每 块 写 到 
两 个 单独 的 存储 设备 来 提供 镜像 。 
其 他 特征 ， 如 快照 和 复制 ， 在 每 个 级 别 中 都 可 以 实现 。 快 照 ( snapshot) 是 在 最 后 一 次 更 
新 之 前 文件 系统 的 视图 。( 第 11 章 较 全 面 地 讨论 了 快照 。) 复制 (replication) 涉及 不 同 站 点 之 
间 的 自动 复制 写 人 人， 以 提供 宛 余 和 失败 恢复 。 复 制 可 以 是 同步 或 异步 的 。 对 于 同步 复制 ， 在 
写 入 完成 之 前 ， 必 须 在 本 地 和 远程 的 站 点 中 写 人 每 块 ; 而 对 于 异步 复制 ， 写 人 是 定期 地 按 组 
来 进行 的 。 如 果 主 站 点 故障 ， 则 异步 复制 可 能 导致 数据 丢失 ,但 是 它 更 快 且 没 有 距离 限制 。 
这 些 特征 的 实现 ， 因 RAID 实现 级 别 的 不 同 而 不 同 。 例 如 ， 如 果 RAID 实现 采用 软 
件 ， 则 每 个 主机 可 能 需要 实现 和 管理 其 自己 的 复制 。 然 而 ， 如 果 RAID 实现 采用 存储 阵列 或 
SAN 互 连 ， 则 无 论 主机 操作 系统 或 其 功能 如 何 ， 都 可 以 复制 主机 的 数据 。 
大 多 数 RAID 实现 的 另 一 方面 是 热 备份 磁盘 。 热 备份 (hot spare) 不 是 用 于 存储 数据 ， 
但 是 配置 成 在 磁盘 故障 时 用 作 替 换 。 例 如 ， 如 果 每 对 磁盘 之 一 故障 ， 则 热 备份 可 以 用 于 重 构 
镜像 磁盘 对 。 这 样 ， 就 可 以 自动 重建 RAID 级 别 ， 而 无 需 等 待 替 换 故障 磁盘 。 分 配 多 个 热 备 
份 允 许多 个 磁盘 故障 而 无 需 人 工 干预 。 


12.7.4 RAID 级 别 的 选择 


RAID 级 别 有 很 多 ， 系 统 设计 人 员 如 何 选 择 RAID 级 别 ? 一 个 考虑 是 重 构 性 能 。 如 果 磁 
盘 故 障 ， 则 重建 数据 的 所 需 时 间 可 能 很 大 。 如 果 要 求 持 续 提供 数据 ， 如 高 性 能 或 交互 式 数据 
库 系统 ， 那 么 这 可 能 是 个 重要 因素 。 此 外 ， 重 建 性 能 影响 平均 故障 时 间 。 

重建 性 能 随 着 使 用 RAID 级 别 而 异 。RAID 级 别 1 的 重建 最 简单 ， 因 为 可 以 从 另 一 个 磁 
盘 来 复制 数据 。 对 于 其 他 级 别 ， 需 要 访问 阵列 内 的 所 有 其 他 磁盘 ， 以 便 重建 故障 磁盘 的 数 
据 。 对 于 大 磁盘 集 的 RAID 5 重建 ， 可 能 需要 几 个 小 时 。 

RAID 级 别 0 用 于 数据 损失 并 不 重要 的 高 性 能 应 用 程序 。RAID 级 别 1， 对 于 需要 高 可 
靠 性 和 快速 恢复 的 应 用 程序 ， 很 受 欢 迎 。RAID 0+1 Al RAID 1+0 用 于 性 能 和 可 靠 性 都 重要 
的 应 用 ， 例 如 小 型 数据 库 。 由 于 RAID 1 的 高 空间 开销 ，RAID 5 通常 是 存储 大 量 数据 的 首 
选 。 虽 然 级 别 6 并 不 为 许多 RAID 实现 所 支持 ,但 是 它 应 该 比 级 别 5 提供 更 好 的 可 靠 性 。 
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RAID 系统 设计 人 员 和 存储 管理 员 还 必须 做 出 其 他 几 个 决定 。 例 如 ， 给 定 RAID 集 应 有 
多 少 磁 盘 ? 每 个 奇偶 校 验 位 应 保护 多 少 位 ? 如 果 阵 列 内 的 磁盘 越 多 ， 则 数据 传输 率 就 越 高 ， 
但 是 系统 就 越 昂贵 。 如 果 奇 偶 校 验 位 保护 的 位 越 多 ， 则 由 于 奇偶 校 验 位 而 导致 的 空间 开销 就 
越 低 ， 但 是 在 第 一 个 故障 磁盘 需要 替换 之 前 而 第 二 个 磁盘 出 现 故障 并 且 导 致 数据 丢失 的 机 会 
就 越 高 。 


12.7.5 扩展 


RAID 概念 已 扩展 到 其 他 存储 设备 (包括 磁带 阵列 )， 甚 至 无 线 系统 的 数据 广播 。 当 应 用 
于 磁带 阵列 时 ， 即 使 磁带 阵列 内 的 一 个 磁带 损坏 ， 仍 然 可 以 利用 RAID 结构 恢复 数据 。 当 应 
用 于 广播 数据 时 ， 每 块 数据 可 分 为 短 单元 ， 并 和 奇偶 校 验 单元 一 起 广播 。 如 果 一 个 单元 出 于 
某 种 原因 不 能 收 到 ， 则 它 可 以 通过 其 他 单元 来 重 构 。 通 常 ， 磁 带 驱动 机 器 人 包括 多 个 磁带 驱 
动 器 ， 可 将 数据 分 散在 所 有 驱动 器 上 以 增加 吞吐 量 和 降低 备份 时 间 。 


12.7.6 RAID 的 问题 


RAID 并 不 总 是 确保 数据 对 操作 系统 和 使 用 者 是 可 用 的 。 例 如 ， 文 件 指针 可 能 是 错 的 ， 
或 文件 结构 内 的 指针 可 能 是 错 的。 如 果 没 有 正确 恢复 ， 则 不 完整 的 写 入 会 导致 数据 损坏 。 一 
些 其 他 进程 也 会 偶然 写 出 文件 系统 的 结构 。RAID 防范 物理 媒介 错误 ， 但 不 是 其 他 硬件 和 软 
件 错误 。 与 软件 和 硬件 错误 一 样 ， 系 统 数据 潜在 危险 也 有 许多 。 

564 Solaris ZFS 文件 系统 采用 创新 方法 来 解决 这 些 问题 ， 即 采用 校 验 和 ( checksum)， 这 是 
用 于 验证 数据 完整 性 的 一 种 技术 。ZFS 维护 所 有 
块 (包括 数据 和 元 数据 ) 的 内 部 校 验 和 。 这 些 校 验 
和 没有 与 正在 进行 校 验 的 块 放 在 一 起 ; 而 是 与 块 
的 指针 放 在 一 起 。( 见 图 12-13。) 考虑 一 个 信息 节 
点 (inode) (存储 文件 系统 元 数据 的 结构 )， 带 有 数 
据 指 针 。 每 个 数据 块 的 校 验 和 位 于 inode 内 。 如 果 
数据 有 问题 ， 则 校 验 和 会 不 正确 ， 并 且 文 件 系统 
会 知道 它 。 如 果 数 据 是 镜像 的 ， 有 一 个 块 具 有 正 
确 的 校 验 和 ， 并 且 另 有 一 个 块 具 有 不 正确 的 校 验 
Al, ABA ZFS SA SRA MPR RAR, | Bei] | 数据 2 
类 似 地 ， 指 向 inode HY A RA AAA inode 的 校 验 图 12-13 ZFS 校 验 所 有 的 元 数据 与 数据 
和 。 当 访问 目录 时 ，inode 的 任何 问题 会 检测 到 。 

所 有 ZFS 结构 都 会 进行 校 验 和 ， 以 便 提 供 比 RAID 磁盘 集 或 标准 文件 系统 更 高 级 别 的 一 臻 
性 、 错 误 检测 和 错误 纠正 。 因 为 ZFS 的 整体 性 能 非常 快 ， 校 验 和 计算 与 额外 块 读 - 改 - 写 
周期 的 额外 开销 不 是 明显 的 。 

大 多 数 的 RAID 实现 的 另 一 个 问题 是 缺乏 灵活 性 。 考 虑 一 个 具有 20 个 磁盘 的 存储 阵列 ， 
它 分 为 4 组 ， 每 组 有 5 个 磁盘 。5 个 磁盘 的 组 为 RAID 级 别 5。 因 此 ， 有 4 个 单独 的 卷 ， 每 
个 都 有 文件 系统 。 但 是 如 果 文 件 太 大 以 致 于 不 适合 5 个 磁盘 的 组 ， 怎 么 办 ? 如 果 另 一 个 文件 

系统 需要 很 少 的 空间 ， 怎 么 办 ? 如 果 事 先 已 经 知道 这 些 因 素 ， 则 可 以 正确 分 配 磁盘 和 卷 。 然 
而 ， 很 多 时 候 磁 盘 的 使 用 和 需求 随时 间 而 变化 。 

即使 存储 阵列 允许 20 个 磁盘 的 集合 创建 成 一 个 大 的 RAID 集 ， 其 他 问题 可 能 出 现 。 多 
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个 各 种 大 小 的 卷 可 以 创建 在 这 个 集 上 。 但 是 有 的 卷 管理 器 不 允许 我 们 改变 卷 的 大 小 。 在 这 种 


情况 下 ， 会 有 与 上 述 相同 的 不 匹配 文件 系统 大 小 的 问题 。 有 些 卷 
管理 器 允许 更 改 大 小 ， 但 是 有 些 文件 系统 不 允许 文件 系统 生长 或 
收缩 。 卷 可 以 更 改 大 小 ,但 是 文件 系统 需要 重建 以 利用 这 些 改变 。 

ZFS 将 文件 系统 管理 和 卷 管理 组 合 到 一 起 ， 比 这 些 功能 的 传统 
分 开 提供 更 强 的 功能 。 磁 盘 ， 或 磁盘 分 区 ， 通 过 RAID 集 组 成 存储 
池 (pool)。 每 个 池 可 以 容纳 一 个 或 多 个 ZFS 文件 系统 。 整 个 池 的 可 
用 空间 可 用 于 该 池 的 所 有 文件 系统 。ZFS 采用 内 存 模型 的 malloc() 
和 free() ， 为 每 个 文件 系统 分 配 和 释放 存储 。 因 此 ， 存 储 使 用 没 
有 人 为 限制 ， 无 需 在 卷 之 间 重 定位 文件 系统 ， 或 调整 卷 大 小 。ZFS 
提供 配额 来 限制 文件 系统 的 大 小 ， 并 提供 预 留 以 确保 文件 系统 可 OS a 。 
以 增长 指定 数量 ， 但 是 文件 系统 所 有 者 可 以 随时 改变 这 些 变量 。 b) ZFS 和 混合 存储 
图 12-14a 显示 了 传统 卷 和 文件 系统 ， 而 图 12-14b 显示 了 ZFS 模型 。 图 12-14 


InServ 存储 阵列 


为 了 提供 更 好 、 更 快 、 更 低廉 的 解决 方案 ,创新 经 常 模糊 了 区 分 以 前 技术 的 界线 。 
考虑 3Par 的 InServ 存储 阵列 。 与 大 多 数 其 他 存储 阵列 不 同 ，InServ 不 要 求 将 磁盘 集 配 置 
成 特定 RAID 级 别 。 相 反 ， 每 个 磁盘 分 成 256MB 的 “chunklets”。 然 后 ， 级 别 chunklet 


K RAID, H F chunklet 可 用 于 多 个 卷 ， 磁 盘 可 以 参与 多 个 和 各 种 的 RAID 级 别 。 


InServ Z RHR, XM TF WAFL 文件 系统 创建 的 。InServ 快照 的 格式 可 以 被 读 、 





写 以 及 只 读 ， 允 许多 个 主机 加 载 一 个 给 定 文件 系统 的 副本 ， 而 不 需要 整个 文件 系统 自己 的 
副本 。 每 个 主机 对 自己 副本 的 更 改 是 写 时 复制 的 ， 并且 其 他 副本 不 受 影响 。 

另 一 个 创新 是 实用 存储 (utility storage)。 有 些 文件 系统 不 扩展 也 不 收缩 。 在 这 些 
系统 上 ， 原 来 的 大 小 是 唯一 的 大 小 ， 任 何 更 改 都 需要 复制 数据 。 管 理 员 可 以 为 主机 配置 
InServ， 以 提供 大 量 逻 辑 存 储 ， 而 且 最 初 只 占 少 量 的 物理 存储 。 当 主机 开始 使 用 存储 时 ， 
未 使 用 的 磁盘 分 配给 主机 ， 不 到 原来 的 钦 辑 级 别 。 按 照 这 种 方法 ， 主 机 可 以 相信 它 有 一 个 
很 大 的 固定 存储 空间 ， 并 在 其 中 创建 文件 系统 ， 等 等 。 通 过 InServ， 可 以 对 文件 系统 添加 
或 删除 磁盘 ， 而 且 文 件 系 统 不 会 注意 到 这 种 改变 。 这 个 功能 可 以 减少 主机 所 需 的 磁 盘 数 
量 ， 或 者 至 少 延 迟 购 买 磁盘 直到 它们 真正 需要 。 


12.8 稳定 存储 实现 


第 6 章 介 绍 了 预 写 日 志 ， 它 要 求 使 用 稳定 存储 。 根 据 定义 ， 位 于 稳定 存储 的 数据 永远 不 会 丢 


失 。 为 了 实现 这 种 存储 ， 需 要 复制 所 需 信息 到 多 个 具有 独立 故障 模式 的 存储 设备 (通常 为 磁盘 )。 
还 需要 协调 更 新 写 人 人， 以 保证 更 新 过 程 中 的 故障 不 会 让 所 有 副本 处 于 损坏 状态 ， 还 保证 即使 
恢复 时 出 现 另 一 故障 ， 可 以 强制 所 有 副本 处 于 一 致 且 正确 的 值 。 本 节 将 讨论 如 何 满足 这 些 需 求 。 


磁盘 写 人 导致 三 种 结果 : 

o 成 功 完成 : 数据 正确 写 到 磁盘 。 

e 部 分 故障 : 在 传输 中 出 现 故障 ， 这 样 有 些 扇 区 写 了 新 数据 ， 而 在 故障 发 生 时 正在 写 
的 扇 区 可 能 已 被 破坏 。 

。 完全 故障 : 在 磁盘 写 入 开始 之 前 发 生 故 障 ， 因 此 磁盘 上 的 以 前 数据 值 保持 不 变 。 
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无 论 何 时 写 和 人 块 时 发 生 故 障 ， 系 统 需要 检测 到 ， 并 调用 恢复 程序 使 得 数据 块 恢复 到 一 臻 
状态 。 要 做 到 这 一 点 ， 系 统 必 须 为 每 个 逻辑 块 维护 两 个 物理 块 。 输 出 操作 执行 如 下 : 

e 将 信息 写 到 第 一 个 物理 块 。 

© 当 第 一 次 写 入 成 功 完成 时 ， 将 同样 信息 写 到 第 二 个 物理 块 。 

© 只 有 第 二 次 写 和 成功 完 成 ， 才 可 声明 操作 完成 。 

在 故障 恢复 时 ， 每 对 物理 块 都 要 检查 。 如 果 两 块 相同 并 且 不 存在 可 检测 到 的 错误 ， 则 不 
需要 进一步 的 动作 。 如 果 一 块 含 有 可 检测 到 的 错误 ， 则 用 另 一 块 的 值 蔡 换 它 的 内 容 。 如 果 两 
块 都 没有 可 检测 到 的 错误 ， 则 用 第 二 块 的 内 容 替 换 第 一 块 的 。 这 个 恢复 程序 确保 ， 稳 定 存 储 
的 写 人 要 么 完全 成 功 要 么 没有 任何 变化 。 

可 以 轻松 地 扩展 这 个 程序 ， 以 允许 使 用 任意 大 量 的 稳定 存储 的 块 副本 。 虽 然 大 量 副 本 进 
一 步 降低 故障 概率 ， 但 是 通常 采用 两 个 副本 来 模拟 稳定 存储 较为 合理 。 除 非 故障 损坏 所 有 副 
本 ， 和 否则 稳定 存储 的 数据 保证 是 安全 的 。 

因为 等 待 磁盘 写 人 完成 (同步 VO) 费时 ， 许 多 存储 陈列 增加 了 NVRAM 缓存 。 由 于 这 
种 内 存 是 非 易 失 性 的 (通常 它 用 电池 作为 该 单元 的 后 备 电 源 )， 可 以 相信 它 能 够 存储 存 到 磁 
盘 的 途中 数据 。 因 此 ， 可 以 认为 它 是 稳定 存储 的 一 部 分 。 对 它 的 写 人 比 对 磁盘 的 写 人 快 得 
多 ， 这 样 大 大 地 提高 了 性 能 。 


12.9 小结 


磁盘 驱动 器 是 大 多 数 计算 机 的 主要 外 存 IO 设备 。 大 多 数 外 存 设备 为 磁盘 或 磁带 ， 但 是 
固态 磁盘 日 益 重 要 。 现 代 磁 盘 驱 动 的 结构 是 一 个 大 的 一 维 的 逻辑 磁盘 块 的 数组 。 一 般 来 说 ， 
这 些 逻辑 块 的 大 小 为 S12 字 节 。 磁 盘 连 到 计算 机 系统 的 方式 可 以 有 两 种 : 1 ) 通过 主机 的 本 
地 IO 端口 , 或 2) 通过 网 络 连接 。 

磁盘 VO 请 求 由 文件 系统 和 虚拟 内 存 系统 所 产生 。 每 个 请 求 按 逻辑 块 号 的 形式 ， 指 定 所 
用 的 磁盘 地 址 。 磁 盘 调 度 算法 可 以 改善 有 效 带宽 、 响 应 时 间 均 值 、 响 应 时 间 偏 差 等 。 许 多 算 
法 ,如 SSTF、SCAN 、C-SCAN LOOK 和 C-LOOK 通过 磁盘 队列 的 重 排 ， 以 改善 这 些 指标 。 
磁盘 调度 算法 的 性 能 因 磁 盘 有 所 不 同 。 相 比 之 下 ， 因 为 固态 磁盘 没有 移动 部 件 ， 所 以 算法 的 
性 能 差异 很 小 并 且 经 常 使 用 简单 的 FCFS 策略 。 

性 能 可 能 由 于 外 部 碎片 而 降低 。 有 些 系统 提供 工具 扫描 文件 系统 ， 进 而 确定 碎片 文件 ; 
然后 移动 块 以 减少 碎片 。 对 于 严重 碎片 的 文件 系统 进行 碎片 整理 可 以 显著 地 提高 性 能 ， 但 是 
整理 碎片 时 也 会 影响 系统 性 能 。 复 杂 的 文件 系统 ， 如 UNIX 快速 文件 系统 ， 采 用 了 许多 策 
略 ， 以 便 控制 空间 分 配 引起 的 碎片 ， 从 而 不 需要 磁盘 重组 。 

操作 系统 管理 磁盘 块 。 首 先 ， 必 须 低级 格式 化 磁盘 ， 以 便 在 原始 硬件 上 创建 扇 区 ， 新 磁盘 通 
常 是 预先 格式 化 的 。 然 后 ， 对 磁盘 分 区 ， 创 建文 件 系统 ， 并 分 配 启动 块 以 存储 系统 的 引导 程序 。 
最 后 ， 当 有 一 个 块 损坏 时 ， 系 统 必须 有 一 个 方法 来 锁定 它 ， 或 者 用 另 一 备份 块 从 逻辑 上 替代 它 。 

因为 高 效 的 交换 空间 对 于 性 能 良好 十 分 关键 ， 系 统 通 常 绕 过 文件 系统 ， 而 使 用 原始 磁盘 
来 进行 调 页 IO 访问 。 有 的 系统 将 原始 磁盘 分 区 专用 于 交换 空间 ， 而 有 的 使 用 文件 系统 的 文 
件 。 还 有 其 他 的 系统 提供 两 种 选择 ， 以 便 人 允许 用 户 或 系统 管理 员 做 出 决定 。 

由 于 大 型 系统 需要 大 量 存储 ， 经 常 通过 RAID 算法 以 使 磁盘 宛 余 。 对 给 定 的 操作 ， 这 些 
算法 允许 采用 多 个 磁盘 ， 即 使 磁盘 故障 时 也 允许 继续 运行 ， 甚 至 恢复 数据 。RAID 算法 分 成 
不 同 级 别 ， 每 个 级 别提 供 可 靠 性 和 高 传输 率 的 一 定 组 合 。 
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习题 


12.1 


12.2 
12.3 


12.4 


12.8 


除了 FCFS 之 外 ,没有 一 个 磁盘 调度 规则 是 真正 公平 (可 能 会 出 现 饥饿 )。 

a. 解释 为 什么 这 个 断言 是 真 。 

b. 描述 一 个 方法 ， 用 于 修改 像 SCAN 这 样 的 算法 来 确保 公平 。 

c. 解释 为 什么 分 时 系统 的 公平 是 一 个 重要 目标 。 

d 给 出 三 个 或 更 多 例子 ,说 明 当 操作 系统 处 理 1/O 请 求 时 “不 公平 ”很 重要 。 

解释 为 什么 SSD 经 常 使 用 FCFS 磁盘 调度 算法 。 

假设 一 个 磁盘 驱动 器 有 5000 个 柱 面 ， 从 0 到 4999。 该 驱动 器 目前 正在 处 理 请 求 柱 面 2150， 以 
前 请 求 为 柱 面 1805。 按 FIFO 顺序 的 等 待 请 求 队列 是 : 


2069, 1 212, 2 296, 2 800, 544, 1 618, 356, 1 523, 4 965, 3 681 


从 当前 磁头 位 置 开始 ， 针 对 以 下 每 个 磁盘 调度 算法 ， 磁 辟 移 动 以 满足 所 有 等 待 请 求 的 总 的 移动 
距离 是 多 少 。 

a. FCFS 

b. SSTF 

c. SCAN 

d. LOOK 

e. C-SCAN 

f. C-LOOK 


初等 物理 学 指出 ， 当 一 个 物体 具有 恒定 加 速度 a， 距 离 4 与 时 间 /的 关系 由 d = har yee 假设 

在 寻 道 时 ， 像 习题 12.3 一 样 ， 在 寻 道 的 上 半 程 ， 磁 盘 按 恒定 加 速度 移动 磁 臂 ;而 在 寻 道 的 下 半 

程 ， 磁 盘 按 恒定 减速 度 移动 磁 臂 。 假 设 磁盘 完成 一 个 临近 柱 面 的 寻 道 要 1ms， 而 一 次 寻 道 5000 

柱 面 要 18ms。 

a. 寻 道 距离 是 磁头 移 过 的 柱 面 数 量 。 解 释 为 什么 寻 道 时 间 和 寻 道 距离 的 平方 根 成 正比 。 

b. 给 出 寻 道 时 间 为 寻 道 距 离 的 函数 公式 。 这 个 公式 形式 应 为 1=x+yYL ， 其 中 1 是 以 ms 为 单 
位 的 时 间 , 世 是 以 柱 面 数 表示 的 寻 道 距离 。 

c. 针对 习题 12.3 中 的 各 种 调度 算法 ， 计 算 总 的 寻 道 时 间 。 确 定 哪 种 调度 是 最 快 的 (具有 最 小 的 
总 寻 道 时 间 )。 

d. 加 速 百分比 (percentage speedup) 是 节省 下 的 时 间 除 以 原来 时 间 。 最 快 调度 算法 相对 FCFS 的 
“加 速 百 分 比 ” 是 多 少 ? 

假设 习题 12.4 中 的 磁盘 按 7200 RPM 转动 。 

a. 这 个 磁盘 驱动 器 的 平均 旋转 延迟 是 多 少 ? 

b. 在 a 中 算出 的 时 间 里 ， 可 以 寻 道 多 少 距离 ? 

针对 只 用 磁盘 ， 采 用 SSD 作为 缓存 和 采用 SSD 作为 磁盘 驱动 器 ， 具 有 哪些 优点 和 缺点 ? 

假设 请 求 分 布 均衡 ， 比 较 C-SCAN 和 SCAN 调度 的 性 能 。 考 虑 平均 响应 时 间 (从 请 求 到 达到 

请 求 完成 的 时 间 )、 响 应 时 间 的 变化 以 及 有 效 带 宽 。 性 能 如 何 依赖 寻 道 时 间 和 旋转 延迟 的 相对 

大 小 ? 

请 求 通常 不 是 均匀 分 布 的 。 例 如 ， 可 以 认为 ， 访 问 包含 文件 系统 元 数据 的 柱 面 比 包含 文件 的 柱 

面 更 加 频繁 。 假 设 知道 ，50% 的 请 求 都 是 针对 小 部 分 的 固定 柱 面 。 

a 在 本 章 所 述 的 算法 中 ， 有 没有 特别 适合 这 种 情况 的 ? 解释 你 的 答案 。 

b. 根据 磁盘 的 这 个 “热点 ”， 设 计 一 个 磁盘 调度 算法 ， 以 便 提供 更 好 的 性 能 。 
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12.9 考虑 一 个 RAID 5 结构 包含 5 个 磁盘 ，4 个 磁盘 的 4 个 块 组 合 的 奇偶 校 验 存储 在 第 5 个 磁盘 中 。 
执行 以 下 操作 ， 需 要 访问 多 少 个 块 ? 
a. 写 1 个 数据 块 
b. 写 7 个 连续 的 数据 块 
12.10 ”针对 以 下 操作 ， 比 较 RAID 级 别 5 和 RAID 级 别 1 的 吞吐 量 。 
a. 单个 块 的 读 操作 
b. 多 个 连续 块 的 读 操 作 
12.11 ”比较 RAID 级 别 5 和 RAID 级 别 1 的 写 操作 的 性 能 。 
12.12 假设 有 一 个 由 RAID 级 别 1 磁盘 和 RAID 级 别 5 磁盘 的 混合 架构 。 假 设 系统 可 以 灵活 决定 存储 
某 个 特定 文件 采用 哪个 磁盘 组 织 。 为 了 优化 性 能 ， 哪 种 文件 应 存在 RAID 级 别 1 磁盘 ， 哪 种 文 
件 应 存在 RAID 级 别 5 磁盘 ? 
12.13 ”人 磁盘 驱动 器 的 可 靠 性 通常 采用 平均 故障 间隔 时 间 ( Mean Time Between Failures, MTBF) 来 描 
述 。 虽 然 这 个 数量 称 为 “时 间 ”， 但 是 实际 上 MTBF 采用 每 次 故障 的 驱动 器 小 时 数 来 度量 。 
a. 假设 一 个 系统 包含 1000 个 磁盘 驱动 器 ， 每 个 磁盘 驱动 器 的 MTBF 为 750 000 小 时 。 关 于 这 
个 磁盘 场 多 入会 出 现 一 次 故障 的 描述 ， 以 下 哪个 最 好 : 千年 一 次 、 百 年 一 次 、 十 年 一 次 、 一 
年 一 次 、 一 月 一 次 、 一 星期 一 次 、 一 天 一 次 、 一 小 时 一 次 、 一 分 钟 一 次 、 一 秒 一 次 ? 
b. 死亡 率 统计 显示 : 平均 而 言 ， 美 国 居民 在 20 ~ 21 岁 之 间 死 亡 的 概率 是 1 : 1000。 推 断 20 
岁 的 MTBF 小 时 数 。 将 这 个 小 时 数 转 成 年 数 。 这 个 MTBF 告诉 你 ，20 岁 的 平均 寿命 是 
多 少 ? 
c. 制造 商 保证 某 模型 磁盘 驱动 器 的 MTBF 是 100 万 小 时 。 你 能 从 此 推断 出 这 些 驱动 器 的 保修 
期 为 几 年 ? 
12.14 ”讨论 局 区 备份 (sector sparing) FIX HB (sector slipping) 的 相对 优势 和 劣势 。 
12.15 ”操作 系统 可 能 需要 知道 块 如 何 存储 在 磁盘 上 的 准确 信息 ， 讨 论 原因 。 根 据 这 个 知识 ， 操 作 系统 
如 何 提高 文件 系统 的 性 能 ? 


编程 题 
12.16 ”编写 一 个 程序 ， 实 现 以 下 磁盘 调度 算法 : 
a. FCFS 
b. SSTF 
c. SCAN 
d. C-SCAN 
e. LOOK 
f. C-LOOK 
所 编程 序 处 理 具 有 5000 柱 面 的 磁盘 ， 柱 面 号 为 0 ~ 4999。 该 程序 生成 一 个 长 度 为 1000 的 随 
机 请 求 的 序列 ， 并 根据 以 上 的 每 个 算法 来 处 理 它们 。 这 个 程序 的 输入 为 磁头 的 初始 位 置 (作为 
命令 行 的 参数 )， 而 输出 为 每 个 算法 的 磁头 移动 的 总 的 数量 。 


推荐 读物 
Services (2012) 概述 了 各 种 现代 计算 环境 的 数据 存储 。Teorey 和 Pinkerton (1972) 通过 模拟 


程序 模拟 磁盘 (其 中 寻 道 时 间 与 经 过 的 柱 面 数量 为 线性 关系 )， 给 出 了 磁盘 调度 算法 的 早期 比较 分 析 。 
Lumb 4 (2000) 讨论 了 调度 优化 ， 以 便利 用 磁盘 空闲 时 间 。Kim “ (2009) 讨论 了 SSD 的 磁盘 调度 
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算法 。 

Patterson 等 ( 1988 ) 讨论 了 独立 磁盘 元 余 阵列 (RAID)。 

Russinovich 和 Solomon ( 2009 )、McDougall 和 Mauro (2007) 以 及 Love (2010) 分 别 讨论 了 
Win-dows, Solaris 和 Linux 的 文件 系统 细节 。 

负载 的 IO 大 小 和 随机 性 对 磁盘 性 能 具有 相当 影响 。Ousterhout 等 (1985) 与 Ruemmler 和 Wil- 
kes ( 1993 ) 报告 了 许多 有 趣 的 负载 特点 ， 例 如 ， 大 多 数 文件 都 很 小 ， 最 新 创建 的 文件 随后 删除 ， 打 开 
读 取 的 大 多 数 文件 完全 顺序 读 取 ， 大 多 数 寻 道 都 很 短 。 

存储 层次 的 概念 已 有 40 多 年 了 。 例 如 ，Mattson 等 (1970) 描述 了 一 种 数学 方法 ， 以 预测 存储 分 
层 的 性 能 。 
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VO 系统 


计算 机 的 两 个 主要 工作 是 VO 和 处 理 。 在 很 多 情况 下 ， 主 要 工作 是 TO ， 而 处 理 只 是 附 
带 的 。 例 如 ， 当 浏览 网 页 或 编辑 文件 时 ， 直 接 兴 趣 是 读 取 或 输入 信息 ， 而 非 计算 答案 。 

计算 机 的 操作 系统 VO 功能 是 ， 管 理 和 控制 IO 操作 和 IO 设备。 虽然 其 他 章节 也 讨论 
了 有 关 问 题 ， 但 是 这 里 汇集 所 有 部 分 ， 以 便 给 出 一 幅 完 整 WO 图 。 首 先 ， 描 述 IO 硬件 的 基 
础 知识 ， 因 为 硬件 接口 本 身 对 操作 系统 的 内 部 功能 有 所 限制 。 接 着 ， 讨 论 操 作 系 统 提供 的 
VO 服务 以 及 这 些 服务 的 应 用 程序 IO 接口 的 实现 。 然 后 ， 解 释 操 作 系 统 如 何 缩小 硬件 接口 
与 应 用 程序 接口 之 间 的 差距 ; 也 讨论 UNIX System V 的 流 机 制 ， 以 便 应 用 程序 动态 组 装 驱 
动 程序 代码 。 最 后 ， 讨 论 IO 的 性 能 问题 ， 及 用 来 提高 IO 性 能 的 操作 系统 设计 原则 。 

本 章 目标 

© 剖析 操作 系统 的 IO 子 系统 架构 。 

© 讨论 IO 硬件 的 原理 和 复杂 性 。 

© 解释 IO 硬件 和 软件 的 性 能 问题 。 


13.1 概述 


计算 机 设备 的 控制 是 操作 系统 设计 人 员 的 主要 关注 之 一 。 因 为 VO 设备 的 功能 与 速度 差 
异 很 大 (设想 一 下 鼠标 、 硬 盘 及 磁带 机 )， 所 以 需要 采用 不 同方 法 来 控制 设备 。 这 些 方法 构 
成 了 内 核 的 1O 子 系统 ， 以 便 内 核 的 其 他 部 分 不 必 涉 及 VO 设备 管理 的 复杂 性 。 

IO 设备 技术 呈现 两 个 冲突 趋势 。 一 方面 ， 软 件 和 硬件 的 接口 标准 化 日 益 增长 。 这 个 趋 
势 有 助 于 将 改进 升级 设备 集成 到 现 有 计算 机 和 操作 系统 。 另 一 方面 ，LO 设备 的 种 类 也 日 益 
增多 。 有 些 新 设备 与 以 前 设备 的 差别 如 此 之 大 ， 以 致 难以 集成 到 计算 机 和 操作 系统 。 这 种 挑 
战 的 解决 需要 采用 硬件 和 软件 的 组 合 技 术 。1/O 设备 的 基本 要 素 ， 如 端口 、 总 线 及 设备 控制 
器 ， 适 用 各 种 各 样 的 IO 设备 。 为 了 封装 各 种 设备 的 细节 与 特点 ， 操 作 系 统 内 核 采用 设备 驱 
动 程序 模块 。 设 备 驱 动 程序 ( device driver) 为 VO 子 系 统 提 供 了 统一 的 设备 访问 接口 ， 就 像 
系统 调用 为 应 用 程序 与 操作 系统 之 间 提 供 了 标准 接口 。 


13.2 I/O 硬件 


计算 机 使 用 各 种 各 样 的 设备 。 大 多 数 设 备 属于 存储 设备 (磁盘 、 磁 带 )、 传 输 设备 (网络 
连接 、 蓝 牙 ) 和 人 机 交互 设备 (屏幕 、 键 盘 、 鼠 标 、 音 频 输入 和 输出 )。 其 他 设备 更 为 专用 ， 
例如 控制 军用 战斗 机 的 设备 。 对 于 这 类 飞机 ， 通 过 操纵 杆 和 脚 踏 板 为 飞行 计算 机 提供 输入 ， 
计算 机 就 会 发 出 命令 来 控制 马达 ， 从 而 移动 机 艇 和 机 恤 并 为 发 动机 增加 燃料 。 然 而 ， 尽 管 
VO 设备 的 种 类 如 此 之 多 ,但 是 仅仅 需要 少数 几 个 概念 ， 就 能 理解 设备 是 如 何 连接 的 以 及 软 
件 如 何 控制 硬件 。 

设备 与 计算 机 系统 的 通信 ， 可 以 通过 电缆 甚至 空气 来 发 送信 息 。 设 备 与 计算 机 的 通信 通 
过 一 个 连接 点 或 端口 (port)， 例 如 ， 串 行 端口 。 如 果 设 备 共 享 一 组 通用 线路 ， 则 这 种 连接 称 
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为 总 线 。 总 线 (bus) 是 一 组 线路 和 通过 线路 传输 信息 的 严格 定义 的 一 个 协议 。 采 用 电子 学 术 
语 来 说 ， 消 息 是 通过 施加 线路 的 具有 一 定时 序 的 电压 模式 来 传递 的 。 如 果 设 备 4 通过 线路 连 
到 设备 B, B 又 通过 线路 连 到 设备 C, C 通过 端口 连 到 计算 机 ， 则 这 种 方式 称 为 菊花 链 (daisy 
chain)。 菊 花 链 通常 按照 总 线 运行 。 

总 线 在 计算 机 体系 结构 中 应 用 广泛 ， 它 们 在 信 令 方法 、 速 度 、 吞 吐 量 和 连接 方法 等 方面 
差异 很 大 。 一 个 典型 的 PC 总 线 结构 如 图 13-1 所 示 。 在 图 中 ，PCI 总 线 (PCI bus) (常用 PC A 
统 总 线 ) 将 处 理 器 内 存 子 系统 连 到 快速 设备 ， 而 扩展 总 线 (expansion bus) 连接 相对 较 慢 的 设 
备 ， 如 键盘 和 串口 和 USB 端口 。 在 图 的 右上 部 分 ，4 个 磁盘 通过 小 型 计算 机 系统 接口 ( Small 
Computer System Interface, SCSI) 总 线 连 到 SCSI 控制 器 。 用 于 互 连 计 算 机 主要 部 分 的 其 他 总 
线 包括 ， 吞 叶 量 高 达 16GB/s 的 PCI Express (PCIe) 和 吞吐 量 高 达 25GB/s 的 HyperTransport. 





SCSI 总 线 
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图 13-1 一 个 典型 的 PC 总 线 结构 


控制 器 (controller) 是 可 以 操作 端口 、 总 线 或 设备 的 一 组 电子 器 件 。 串 行 端口 控制 器 是 
一 个 简单 的 设备 控制 器 。 它 是 计算 机 内 的 单个 芯片 〈 或 芯片 的 一 部 分 )， 用 于 控制 串口 线路 
的 信号 。 相 比 之 下 ，SCSI 总 线 控制 器 并 不 简单 。 因 为 SCSI 协议 复杂 ，SCSI 总 线 控制 器 通 
常 为 单独 的 电路 板 (或 主机 适配器 (host adapter) )， 可 以 连 到 计算 机 。 它 通常 包含 处 理 器 、 
微 代码 和 一 些 专 用 内 存 ， 能 够 处 理 SCSI 协议 消息 。 有 些 设 备 有 内 置 的 控制 器 。 如 果 观 察 一 
下 磁盘 ， 则 会 看 到 附 在 一 边 的 线路 板 ， 该 板 就 是 磁盘 控制 器 。 它 实现 了 某 种 连接 协议 (例如 
SCSI 或 串 行 高 级 技术 连接 (Serial Advanced Technology Attachment, SATA)) 的 磁盘 一 端的 
部 分 。 它 有 微 码 和 处 理 器 来 处 理 许多 任务 ， 如 坏 复 映射 、 预 取 、 缓 冲 和 高 速 缓存 : 

处 理 器 如 何 对 控制 器 发 出 命令 和 数据 以 便 完 成 IO 传输 ? 简单 答案 是 ， 控 制 器 具有 一 个 
或 多 个 寄存 器 ， 用 于 数据 和 控制 信号 。 处 理 器 通过 读 写 这 些 寄存 器 的 位 模式 来 与 控制 器 通 
信 。 这 种 通信 的 一 种 方式 是 ， 通 过 使 用 特殊 IO 指令 针对 IO 端口 地 址 传输 一 个 字 节 或 字 。 
VO 指令 触发 总 线 线路 ， 选 择 适 当 设备 ， 并 将 位 移 和 人 或 移出 设备 寄存 器 。 或 者 ， 设 备 控制 器 
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可 以 支持 内 存 映 射 /O (memory-mapped IO)。 在 这 种 情况 下 ， 设 备 控 制 寄 存 器 被 映射 到 处 
理 器 的 地 址 空间 。 处 理 器 执行 IO 请 求 是 通过 标准 数据 传输 指令 读 写 映 射 到 物理 内 存 的 设备 
控制 器 。 

有 些 系 统 使 用 两 种 技术 。 例 如 ，PC 使 用 IO 指令 来 控制 一 些 设备 ， 而 使 用 内 存 映 射 IO 
来 控制 其 他 设备 。 图 13-2 显示 了 PC 的 常用 IO 端口 地 址 。 图 形 控制 器 ， 不 但 有 IO 端口 以 
完成 基本 控制 操作 ， 而 且 也 有 一 个 较 大 的 内 存 映射 区 域 以 支持 屏幕 内 容 。 进 程 通过 将 数据 写 
到 内 存 映射 区 域 ， 以 将 输出 发 到 屏幕 。 控 制 器 根据 内 存 内 容 生 成 屏幕 图 像 。 这 种 技术 使 用 
简单 。 此 外 ， 向 图 形 内 存 中 写 入 数 百 万 字 节 要 比 执行 数 百 万 条 指令 快 得 多 。 但 是 对 内 存 映射 
IO 控制 器 写 入 的 简便 性 也 存在 一 个 缺点 。 因 为 软件 出 错 的 常见 类 型 之 一 是 ， 通 过 一 个 错误 
指针 向 一 个 不 该 写 的 内 存 区 域 写 数 据 ， 所 以 内 存 映射 设备 寄存 器 容易 受到 意外 修改 。 当 然 ， 
内 存 保护 有 助 于 降低 这 种 风险 。 


VO 地 址 范围 (十 六 进 制 ) 




























图 13-2 PC 的 设备 VO 端口 位 置 (部 分 ) 


1/O 端口 通常 由 四 个 寄存 器 组 成 ， 即 状态 、 控 制 、 数 据 输 入 和 数据 输出 寄存 器 。 
e 数据 输入 寄存 器 (data-in register) 被 主机 读 出 以 获取 数据 。 
e 数据 输出 寄存 器 (data-out register) 被 主机 写 人 以 发 送 数据 。 
© 状态 寄存 器 (status register) 包含 一 些 主 机 可 以 读 取 的 位 ， 例 如 当前 命令 是 否 完成 、 
数据 输入 寄存 器 中 是 否 有 数据 可 以 读 取 、 是 否 出 现 设备 故障 等 。 
o 控制 寄存 器 ( control register) 可 由 主机 写 入 ， 以 便 启动 命令 或 更 改 设备 模式 。 例 如 ， 
串口 控制 寄存 器 中 的 一 位 选择 全 工 通信 或 单 工 通信 ， 另 一 位 控制 启动 奇偶 校 验 检查 ， 
第 三 位 设置 字 长 为 7 或 8 位 ， 其 他 位 选择 串口 通信 支持 的 速度 等 。 
数据 寄存 器 的 大 小 通常 为 1 一 4 字 节 。 有 些 控制 器 有 FIFO 芯片 ， 可 以 保留 多 个 输入 或 
输出 字 节 ， 以 便 在 数据 寄存 器 大 小 的 基础 上 扩展 控制 器 的 容量 。FIFO 芯片 可 以 保留 少量 突 
发 数据 ， 直 到 设备 或 主机 可 以 接收 数据 。 


13.2.1 轮 询 


主机 与 控制 器 之 间 交 互 的 完整 协议 可 以 很 复杂 ,但 基本 握手 概念 则 比较 简单 。 握 手 概念 
可 以 通过 例子 来 解释 。 假 设 采用 2 个 位 协调 控制 器 与 主机 之 间 的 生产 者 与 消费 者 的 关系 。 控 
制 器 通过 状态 寄存 器 的 忙 位 (busy bit) 来 显示 状态 。( 记 住 ， 置 位 (set a bit) 就 是 将 1 写 到 
位 中 ， 而 清 位 (clear a bit) 就 是 将 0 写 到 位 中 )。 控 制 器 工作 忙 时 就 置 忙 位， 而 可 以 接收 下 
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一 命令 时 就 清 忙 位 。 主 机 通过 命令 寄存 器 的 命令 就 绪 位 (command-ready bit) 来 表示 意愿 。 
当主 机 有 命令 需要 控制 器 执行 时 ， 就 置 命令 就 绪 位 。 例 如 ， 当 主机 需要 通过 端口 来 输出 数据 
时 ， 主 机 与 控制 器 之 间 握 手 的 协调 如 下 : 

1. 主机 重复 读 取 忙 位 ， 直 到 该 位 清 零 。 

2. 主机 设置 命令 寄存 器 的 写 位 ， 并 写 出 一 个 字 节 到 数据 输出 寄存 器 。 

3. 主机 设置 命令 就 绪 位 。 

4. 当 控制 器 注意 到 命令 就 绪 位 已 设置 ， 则 设置 忙 位 。 

5. 控制 器 读 取 命令 寄存 器 ， 并 看 到 写 命 令 。 它 从 数据 输出 寄存 器 中 读 取 一 个 字 节 ， 并 
向 设备 执行 VO 操作 。 

6. 控制 器 清除 命令 就 绪 位 ， 清 除 状态 寄 存 器 的 故障 位 表示 设备 VO 成 功 ， 清 除 忙 位 表示 
完成 。 

对 于 每 个 字 节 重复 这 个 循环 。 在 步骤 1 中， 主机 处 于 忙 等 待 busy-waiting) 或 轮 询 
(polling)。 在 该 循环 中 ,一 直 读 取 状 态 寄 存 器 ， 直 到 忙 位 被 清除 。 如 果 控 制 器 和 设备 都 比较 
R, 这 种 方法 比较 合理 。 但 是 如 果 等 待 时 间 太 长 ， 主 机 可 能 应 该 切换 到 男 一 任务 。 然 而 ， 主 
机 如 何 知 道 控 制 器 何 时 变 为 空 闪 ?对 于 有 些 设备 ， 主 机 应 很 快 地 处 理 设备 请 求 ， 否 则 数据 会 
丢失 。 例 如 ， 当 数据 是 来 自 串 口 或 键盘 的 数据 流 时 ， 如 果 主 机 等 待 太 久 再 来 读 取 数 据 ， 则 串 
口 或 键盘 控制 器 的 小 缓冲 器 可 能 会 溢出 ， 数 据 会 丢失 。 

对 于 许多 计算 机 体系 结构 ， 轮 询 设备 只 要 使 用 三 个 CPU 指令 周期 就 足够 了 ; 读 取 设备 寄 
Fik, EH AND 以 提取 状态 位 ， 根 据 是 否 为 0 进行 跳 转 。 显 然 ， 基 本 轮 询 操作 还 是 高 效 的 。 
但 是 如 不 断 地 重复 轮 询 ， 主 机 很 少 发 现 就 绪 设备 ， 同 时 其 他 需要 使 用 处 理 器 处 理 的 工作 又 不 
能 完成 ， 轮 询 就 低 效 了 。 在 这 种 情况 下 ， 当 设备 准备 好 服务 时 通知 处 理 器 ， 而 不 是 要 求 CPU 
重复 轮 询 IO 完成 ， 效 率 就 会 更 高 。 能 够 让 设备 通知 CPU 的 硬件 机 制 称 为 中 断 (interrupt)。 


13.2.2 中断 


基本 中 断 机 制 的 工作 原理 如 下 。CPU 硬件 有 一 条 线 ， 称 作 中 断 请 求 线 ( Interrupt-Request 
Line, IRL); CPU 在 执行 完 每 条 指令 后 ， 都 会 检测 IRL。 当 CPU 检测 到 控制 器 已 在 IRL 上 
发 出 了 一 个 信号 时 ，CPU 执行 状态 保存 并 且 跳 到 内 存 固定 位 置 的 中 断 处 理 程 序 (interrupt- 
handler routine)。 中 断 处 理 程序 确定 中 断 原 因 ， 执 行 必要 处 理 ， 执 行 状 态 恢 复 ， 并 且 执行 返 
回 中 断 指令 以 便 CPU 回 到 中 断 前 的 执行 状态 。 我 们 说 ,设备 控制 器 通过 中 断 请 求 线 发 送信 
号 而 引起 (raise) 中 断 ，CPU 捕获 (catch) 中 断 并 且 分 派 ( dispatch) 到 中 断 处 理 程 序 ， 中 断 
处 理 程序 通过 处 理 设备 来 清除 (clear) 中断 。 图 13-3 总 结 了 中 断 驱 动 的 1O 循环 。 本 章 强调 
中 断 管 理 ， 因 为 即使 单 用 户 现代 系统 都 会 每 秒 管理 数 百 个 中 断 ， 而 服务 器 每 秒 管理 数 十 万 个 
中 断 。 
刚才 描述 的 基本 中 断 机 制 可 以 使 得 CPU 响应 异步 事件 ， 例 如 设备 控制 器 处 于 就 绪 状态 
以 便 处 理 。 然 而 ， 对 于 现代 操作 系统 ,我们 需要 更 为 复杂 的 中 断 处 理 功 能 。 
o 在 关键 处 理 时 ， 需 要 能 够 延迟 中 断 处 理 。 
。 需要 一 种 有 效 方式 ， 以 便 分 派 中 断 到 合适 的 中 断 处 理 程序 ， 而 无 需 首 先 轮 询 所 有 设 
备 才能 看 到 哪个 引起 了 中 断 。 
o 需要 多 级 中 断 ， 以 便 操作 系统 能 够 区 分 高 优先 级 或 低 优先 级 的 中 断 ， 能 够 根据 紧迫 
性 的 程度 来 响应 。 
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对 于 现代 计算 机 硬件 ， 这 三 个 功能 可 由 CPU 与 中 断 控制 器 硬件 (interrupt-controller hardware) 
来 提供 。 


epi IO 控制 器 


设备 驱动 程序 初始 化 IO 





图 13-3 采用 中 断 驱 动 的 IO 循环 


大 多 数 CPU 有 两 条 中 断 请 求 线 。 一 条 是 非 屏蔽 中 断 (nonmaskable interrupt)， 保 留用 于 
诸如 不 可 恢复 的 内 存 错误 等 事件 。 另 一 条 中 断 线 是 可 屏蔽 中 断 ( maskable interrupt) 的 : 在 
执行 不 得 中 断 的 关键 指令 序列 之 前 ， 它 可 以 由 CPU 关闭 。 可 屏蔽 中 断 可 由 设备 控制 器 用 来 
请 求 服务 。 

中 断 机 制 接受 一 个 地 址 (address)， 根 据 这 个 数字 从 一 个 小 集合 可 以 选择 一 个 特定 中 断 
处 理 程序 。 对 于 大 多 数 体系 结构 ， 这 个 地 址 称 为 中 断 向 量 (interrupt vector) 的 表 中 的 一 个 
偏 移 量 。 这 个 向 量 包 含 了 专门 的 中 断 处 理 程序 的 内 存 地 址 。 向 量 中 断 机 制 的 目的 是 ， 单 个 中 
断 处 理 不 再 需要 搜索 所 有 可 能 中 断 源 ， 以 便 决定 哪个 中 断 需要 服务 。 然 而 ， 实 际 上 ， 计 算 机 
设备 (以 及 相应 的 中 断 处 理 程序 ) 常常 多 于 中 断 向 量 内 的 地 址 。 解 决 这 个 问题 的 常见 方法 是 
采用 中 断 链 (interrupt chaining) 技术 ， 其 中 中 断 向 量 内 的 每 个 元 素 指 向 中 断 处 理 程序 列表 的 
头 。 当 有 一 个 中 断 发 生 时 ， 相 应 链表 上 的 所 有 中 断 处 理 程序 都 将 一 一 调用 ， 直 到 发 现 可 以 处 
理 请 求 的 那个 为 此 。 这 种 结构 是 在 大 的 中 断 向 量 表 的 开销 与 分 派 到 单个 中 断 处 理 程序 的 低 效 
之 间 的 一 个 折 中 。 

图 13-4 说 明了 Intel Pentium 处 理 器 的 中 断 向 量 的 设计 。 事 件 0 ~ 31 为 非 屏蔽 中 断 ， 用 
于 表示 各 种 错误 条 件 的 信和 号。 事件 32 ~ 255 为 可 屏蔽 中 断 ， 用 于 设备 产生 的 中 断 。 

中 断 机 制 还 实现 了 一 个 中 断 优先 级 〈 interrupt priority level) 系统 。 这 些 级 别 能 使 CPU HE 
述 处 理 低 优先 级 中 断 而 不 屏蔽 所 有 中 断 ， 并 且 可 以 让 高 优先 级 中 断 抢 占 执 行 低 优先 级 中 断 。 

现代 操作 系统 与 中 断 机 制 的 交互 有 多 种 方式 。 在 启动 时 ， 操 作 系 统 探 测 硬件 总 线 以 便 确 
定 存在 哪些 设备 ， 并 且 在 中 断 向 量 中 安装 相应 中 断 处 理 程序 。 在 IO 期 间 ， 各 种 设备 控制 器 
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在 准备 好 服务 时 触发 中 断 。 这 些 中 断 表示 ， 输 出 已 经 完成 ， 或 输入 数据 可 用 ， 或 故障 已 检测 
到 。 中 断 机 制 也 用 于 处 理 各 种 异常 ( exception)， 例 如 除 以 0， 访 问 保 护 的 或 不 存在 的 内 存 地 
址 ,或 尝试 执行 源 自用 户 模式 的 特权 指令 。 触 发 中 断 的 事件 有 一 个 共同 特点 : 这 些 事件 导致 
操作 系统 执行 紧急 的 自 包含 的 程序 。 
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图 13-4 Intel Pentium 处 理 器 的 事件 向 量 表 


对 于 可 以 保存 少量 处 理 器 的 状态 并 且 调 用 内 核 的 特权 程序 的 高 效 硬 件 和 软件 机 制 来 说 ， 
操作 系统 还 有 其 他 用 途 。 例 如 ， 许 多 操作 系统 采用 中 断 机 制 来 进行 虚拟 内 存 分 页 。 页 面 错误 
是 引发 中 断 的 异常 。 中 断 挂 起 当前 进程 ， 并 且 转 到 内 核 的 页 面 错 误 处 理 程序 。 这 个 处 理 程 序 
保存 进程 状态 ， 将 中 断 进程 加 到 等 待 队 列 ， 执 行 页 面 缓存 管理 ， 调 度 1/O 操作 以 获取 页 面 ， 
调度 男 一 进程 恢复 执行 ， 然 后 从 中 断 返 回 。 

另 一 个 例子 是 系统 调用 的 实现 。 通 常 ， 程 序 使 用 库 调 用 来 执行 系统 调用 。 库 程序 检查 
应 用 程序 给 出 的 参数 ， 构 建 数据 结构 以 传递 参数 到 内 核 ， 然 后 执行 一 个 特殊 指令 ( 称 为 软 
th iff (software interrupt) 或 者 陷阱 (trap) ) 。 这 个 指令 有 一 参数 ， 用 于 标识 所 需 的 内 核 服 
务 。 当 进程 执行 陷阱 指令 时 ， 中断 硬件 保存 用 户 代 码 的 状态 ,切换 到 内 核 模 式 ， 分 派 到 实 
现 请 求 服务 的 内 核 程 序 。 陷 阱 所 赋予 的 中 断 优先 级 低 于 设备 所 赋予 的 中 断 优先 级 ， 因 为 应 
用 程序 执行 系统 调用 与 在 FIFO 队列 溢出 并 失去 数据 之 前 的 处 理 设备 控制 器 相 比 ， 后 者 更 为 
紧迫 。 

中 断 也 可 用 来 管理 内 核 的 控制 流 。 例 如 ， 考 虑 一 个 处 理 示例 ， 以 便 完 成 磁盘 读 取 。 一 
个 步骤 是 ,复制 内 核 空间 的 数据 到 用 户 缓 冲 。 这 种 复制 耗 时 但 不 紧急 ， 因 此 不 应 阻止 其 他 高 
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优先 级 中 断 的 处 理 。 另 一 个 步骤 是 ， 启 动 下 一 个 等 待 这 个 磁盘 驱动 器 的 IJO。 这 个 步骤 具有 
更 高 优先 级 。 如 果 要 使 磁盘 使 用 高 效 ， 需 要 在 完成 一 个 IO 操作 之 后 尽快 启动 男 一 个 IO 操 
作 。 因 此 ， 两 个 中 断 处 理 程序 实现 内 核 代码 ， 以 便 完成 磁盘 读 取 。 高 优先 级 处 理 程序 记录 
IO 状态 ， 清 除 设 备 中 断 ， 启 动 下 一 个 待 处 理 的 IO， 并 且 引 发 低 优 先 级 中 断 以 便 完成 任务 。 
以 后 ， 当 CPU 没有 更 高 优先 级 的 任务 时 ， 就 会 处 理 低 优 先 级 中 断 。 对 应 的 处 理 程序 复制 内 
核 缓冲 的 数据 到 应 用 程序 空间 ,并且 调 用 进程 调度 程序 来 加 载 应 用 程序 到 就 绪 队 列 ， 以 便 完 
成 用 户 级 的 IO 操作 。 

多 线程 内 核 架 构 非 常 适合 实现 多 优先 级 中 断 ， 并 且 确 保 中 断 处 理 的 优先 级 高 于 内 核 后 台 
处 理 和 用 户 程 序 。 通 过 Solaris 内 核 ， 可 以 说 明 这 点 。Solaris 中 断 处 理 程序 按 内 核 线程 来 执 
行 。 为 这 些 线程 保留 一 系列 高 优先 级 。 这 些 优 先 级 使 得 中 断 处 理 程序 的 优先 级 高 于 应 用 程序 
和 内 核 管理 的 优先 级 ， 并 且 实 现 中 断 处 理 程序 之 间 的 优先 关系 。 这 个 优先 级 导致 Solaris 线 
程 调度 程序 抢占 低 优先 级 的 中 断 处理 程 序 以 便 支持 更 高 优先 级 的 ， 多 线程 实现 允许 多 处 理 器 
硬件 可 以 同时 执行 多 个 中 断 处 理 程序 。 第 17 章 和 附录 A 分 别 描述 了 Windows XP 和 UNIX 
的 中 断 架 构 。 

总 而 言 之 ， 现 代 操 作 系 统 通 过 中 断 处 理 异 步 事件 ， 并 且 陷 阱 进入 内 核 的 管理 态 程序 。 为 
了 能 够 先 做 最 紧迫 的 任务 ， 现 代 计 算 机 使 用 中 断 优 先 级 系统 。 设 备 控 制 器 、 硬 件 故障 、 系 统 
调用 都 会 引起 中 断 并 触发 内 核 程序 。 因 为 中 断 大 量 用 于 时 间 敏 感 的 处 理 ， 所 以 高 性 能 系统 要 
求 高 效 的 中 断 处 理 。 


13.2.3 直接 内 存 访问 


对 于 执行 大 量 传输 的 设备 ， 例 如 磁盘 驱动 器 ， 如 果 通 过 昂贵 的 通用 处 理 器 来 观察 状态 位 
并 且 按 字 节 来 发 送 数 据 到 控制 器 寄存 器 ( 称 为 程序 控制 MO (Programmed I/O, PIO)), Mi {bl 
乎 浪费 了 。 许 多 计算 机 为 了 避免 因 PIO 而 增加 CPU 负担 ， 将 一 部 分 任务 交 给 一 个 专用 的 处 
理 器 ( 称 为 直接 内 存 访问 ( Direct-Memory Access, DMA) 控制 器 )。 在 启动 DMA 传输 时 , 
主机 将 DMA 命令 块 写 到 内 存 。 该 块 包含 传输 来 源 地 址 的 指针 、 传 输 目 标 地 址 的 指针 、 传 输 
的 字 节 数 。CPU 将 这 个 命令 块 的 地 址 写 到 DMA 控制 器 ， 然 后 继续 其 他 工作 。DMA 控制 器 
继续 直接 操作 内 存 总 线 ， 将 地 址 放 到 总 线 ， 在 没有 主 CPU 的 帮助 的 情况 下 执行 传输 。 简 单 
的 DMA 控制 器 是 所 有 现代 计算 机 (从 智能 手机 到 大 型 机 ) 的 标准 组 件 。 

DMA 控制 器 与 设备 控制 器 之 间 的 握手 ， 通 过 一 对 称 为 DMA 请 求 (DMA-request) 和 
DMA 确认 ( DMA-acknowledge) 的 线路 来 进行 。 当 有 数据 需要 传输 时 ， 设 备 控 制 器 发 送信 
号 到 DMA 请 求 线路 。 这 个 信和 号 使 得 DMA 控制 器 占用 内 存 总 线 ， 发 送 所 需 地 址 到 内 存 地 址 
总 线 ， 并 发 送信 号 到 DMA 确认 线路 。 当 设备 控制 器 收 到 DMA 确认 信号 时 ， 它 就 传输 数据 
到 内 存 ， 并 且 清 除 DMA 请 求 信 号 。 

当 完 成 整个 传输 时 ，DMA 控制 器 中 断 CPU. PA 13-5 描述 了 这 个 过 程 。 当 DMA 控制 器 
占用 内 存 总 线 时 ，CPU 被 暂时 阻止 访问 内 存 , 但 是 仍然 可 以 访问 主 缓存 或 辅助 缓存 内 的 数 
据 项 。 虽 然 这 种 周期 窃取 (cycle stealing) 可 能 会 减 慢 CPU 计算 , 但 是 将 数据 传输 工作 交 给 
DMA 控制 器 通常 能 够 改进 总 的 系统 性 能 。 有 的 计算 机 架构 的 DMA 采用 物理 内 存 地 址 ， 而 
其 他 采用 直接 虚拟 内 存 访问 (Direct Virtual-Memory Access，DVMA)， 这 里 所 用 的 虚拟 内 存 
地 址 需要 虚拟 到 物理 地 址 的 转换 。DVMA 可 以 直接 实现 两 个 内 存 映射 设备 之 间 的 传输 ， 而 
无 需 CPU 的 干涉 或 采用 内 存 。 
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1. 设 备 驱动 程序 被 告知 将 磁盘 
数据 传 到 地 址 X 的 缓冲 区 


2. 设 备 驱动 程序 告诉 磁盘 控制 
器 , 将 C 字 节 从 磁盘 传输 到 
地 址 X 的 缓冲 区 






3. 磁 盘 控 制 器 启动 DMA 传 输 
4. 磁 盘 控 制 器 将 每 个 字 节 发 到 DMA 控 制 器 


5.DMA 控 制 器 将 每 个 字 节 传 
到 缓冲 区 X， 增 加 存储 器 
地 址 并 减少 C, 直 到 C=0 

6. 当 C=0 时 ，DMA 中 断 CPU ， 
以 便 信号 传输 完成 


图 13-5 DMA 传输 的 各 个 步骤 


对 于 保护 模式 内 核 ， 操 作 系统 通常 阻止 进程 对 设备 直接 发 送 命令 。 这 个 规定 保护 数据 以 免 
违反 访问 控制 ， 并 且 保护 系统 不 会 因为 设备 控制 器 的 错误 使 用 而 崩溃 。 取 而 代 之 的 是 ， 操 作 系 
统 导 出 一 些 函 数 ， 以 便 具 有 足够 特权 的 进程 可 以 利用 这 些 函 数 来 访问 低层 硬件 的 底层 操作 。 对 
于 没有 内 存 保护 的 内 核 ， 进 程 可 以 直接 访问 设备 控制 器 。 这 种 直接 访问 可 以 用 于 实现 高 性 能 ， 
因为 它 能 避免 内 核 通信 、 上 下 文 切换 及 内 核 软件 分 层 。 但 它 会 影响 系统 的 安全 性 和 稳定 性 。 通 
用 操作 系统 的 趋势 是 保护 内 存 和 设备 ， 这 样 系统 可 以 设法 防范 错误 或 恶意 的 应 用 程序 。 


13.2.4 W/O 硬件 小 结 


虽然 从 电子 硬件 设计 细节 层面 来 考虑 ，LO 的 硬件 方面 很 复杂 ， 但 是 刚刚 描述 的 概念 足 
以 理解 操作 系统 VO 方面 的 许多 问题 。 下 面 总 结 一 下 主要 概念 

e 总 线 

e 控制 器 

© 1/0 端口 及 其 寄存 器 

e 主机 与 设备 控制 器 之 间 的 握手 关系 

© 通过 轮 询 检测 或 中 断 的 握手 执行 

© 将 大 量 传输 任务 交 给 DMA 控制 器 

前 面 通过 举例 说 明了 ， 在 设备 控制 器 与 主机 之 间 的 握手 。 实 际 上 ， 各 种 各 样 的 可 用 设备 
为 操作 系统 实现 人 员 提 出 了 一 个 问题 。 每 种 设备 都 有 自己 的 功能 集 、 控 制 位 的 定义 以 及 与 主 
机 交互 的 协议 ， 这 些 都 是 不 同 的 。 如 何 设计 操作 系统 ， 以 便 新 的 外 设 可 以 连 到 计算 机 而 不 必 
重 写 操作 系统 ? 再 者 ， 由 于 设备 种 类 繁多 ， 操 作 系 统 又 是 如 何 提 供 一 个 统一 、 方 便 的 应 用 程 
序 的 IO 接口 ? 接 下 来 讨论 这 些 问题 。 


13.3 ”应 用 程序 MO 接口 
本 节 讨 论 操作 系统 的 架构 与 接口 ， 以 便 按 统一 的 标准 的 方式 来 处 理 IO 设备 。 例 如 ， 应 
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用 程序 如 何 打开 磁盘 上 的 文件 而 不 必 知 道 它 在 什么 磁盘 ， 新 的 磁盘 和 其 他 设备 如 何 添加 到 计 
算 机 而 不 必 中 断 操作 系统 。 

与 其 他 复杂 软件 工程 问题 一 样 ， 这 里 的 方法 涉及 抽象 、 封 装 与 软件 分 层 。 具 体 来 说 ， 可 
以 从 各 种 各 样 IO 设备 中 ， 抽 象 一 些 通用 类 型 。 每 种 通用 类 型 可 以 通过 一 组 标准 函数 ( 即 接 
口 (interface) ) 来 访问 。 这 些 差异 被 封装 到 内 核 模块 ( 称 为 设备 驱动 程序 ); 这 些 设备 驱动 程 
序 ， 一 方面 可 以 定制 以 适应 各 种 设备 ， 另 一 方面 也 提供 一 组 标准 接口 。 图 13-6 说 明了 内 核 





图 13-6 AK IO 结构 


设备 驱动 程序 层 的 作用 是 ， 为 内 核 IO 子 系统 隐藏 设备 控制 器 之 间 的 差异 ;就 如 同 VO 系 
统 调 用 封装 设备 行为 ， 以 便 形成 少量 的 通用 类 型 ， 并 为 应 用 程序 隐藏 硬件 差异 。1/O 子 系统 与 
硬件 的 分 离 简 化 了 操作 系统 开发 人 员 的 工作 。 这 也 有 利于 硬件 制造 商 。 他 们 或 者 设计 新 的 设 
备 以 与 现 有 主机 控制 器 接口 (如 SATA) 兼容 ， 或 者 编写 设备 驱动 程序 以 将 新 的 硬件 连 到 流行 
的 操作 系统 。 这 样 ， 可 以 将 新 的 外 设 连 到 计算 机 ， 而 无 需 等 待 操作 系统 供应 商 开 发 支持 代码 。 

对 于 设备 硬件 制造 商 ， 每 种 操作 系统 都 有 自己 的 设备 驱动 接口 标准 。 每 个 给 定 设备 可 能 
带 有 多 个 设备 驱动 程序 ， 例 如 Windows, Linux, AIX 和 Mac OS X 的 驱动 程序 。 如 图 13-7 
所 示 ， 设 备 在 许多 方面 都 有 很 大 差异 。 


差异 例子 
访问 方式 顺序 ， 随 机 
av iB AY [a] , 速率 ， 延迟 


数据 传输 模式 


设备 速度 延迟 ， 寻 道 时 间 ， 传 输 速率 ， 操 作 延 迟 


VO 方向 只 读 ， 只 写 ， 读 写 光盘 ， 图 形 控制 器 ， 磁 盘 





图 13-7 WO 设备 的 特点 
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e 字符 流 或 块 : 字符 流 设 备 逐 个 字 节 来 传输 ， 而 块 设备 以 字 节 块 为 单位 来 传输 。 

e 顺序 访问 或 随机 访问 : 顺序 访问 设备 按 设备 确定 的 固定 顺序 来 传输 数据 ， 而 随机 访 
间 设 备 的 用 户 可 以 指示 设备 寻找 到 数据 存储 的 任意 位 置 。 

e 同步 或 异步 : 同步 设备 按 预计 的 响应 时 间 来 执行 数据 传输 ， 并 与 系统 的 其 他 方面 
相 协 调 。 蜡 步 设备 呈 现 不 规则 或 不 可 预测 的 响应 时 间 ， 并 不 与 其 他 计算 机 事件 相 
协调 。 

o 共享 或 专用 : 共享 设备 可 以 被 多 个 进程 或 线程 并 发 使 用 ， 而 专用 设备 则 不 能 。 

o 操作 速度 : 设备 的 速度 范围 从 每 秒 数字 节 到 每 秒 数 G 字 节 。 

e 读 写 、 只 读 、 只 写 : 有 的 设备 能 执行 输入 也 能 执行 输出 ， 而 其 他 的 只 支持 单 向 数据 

传输 。 

为 了 应 用 程序 访问 起 见 ， 许 多 差异 都 被 操作 系统 所 隐藏 ， 而 且 设备 被 分 成 几 种 常规 
类 型 。 设 备 的 访问 样式 也 被 证 明 十 分 有 用 并 得 到 了 广泛 应 用 。 虽 然 确 切 的 系统 调用 可 能 
因 操 作 系统 而 有 所 差异 ， 但 是 设备 类 别 相当 标准 。 主 要 访问 方式 包括 : 块 IJO、 字 符 流 
IO 、 内 存 映射 文件 访问 与 网 络 套 接 字 等 。 操 作 系统 还 提供 特殊 的 系统 调用 ， 来 访问 一 些 
额外 设备 ， 如 时 钟 和 定时 器 。 有 的 操作 系统 提供 一 组 系统 调用 ， 用 于 图 形 显示 、 视 频 与 音 
频 设 备 。 

大 多 数 操作 系统 也 有 一 个 逃逸 (escape) 或 后 门 (back door)， 以 便 应 用 程序 透明 传递 
任何 命令 到 设备 控制 器 。 对 于 UNIX， 这 个 系统 调用 是 ioct1() (IO control), ABI A 
ioct1() 能 使 应 用 程序 访问 设备 驱动 程序 可 以 实现 的 任何 功能 ， 而 无 需 设 计 新 的 系统 调用 。 
系统 调用 ioct1() 有 三 个 参数 。 第 一 个 是 文件 描述 符 ， 它 通过 引用 驱动 程序 管理 的 硬件 设 
备 来 连接 应 用 程序 与 设备 驱动 程序 。 第 二 个 是 整数 ， 用 于 选择 设备 驱动 程序 实现 的 一 个 命 
令 。 第 三 个 是 内 存 中 的 数据 结构 的 一 个 指针 ， 这 使 得 应 用 程序 和 驱动 程序 传输 任何 必要 的 控 
制 信息 或 数据 。 


13.3.1 块 与 字符 设备 


块 设备 接口 (block-device interface) 为 磁盘 驱动 器 和 其 他 基于 块 设备 的 访问 ， 规 定 了 
所 需 的 各 个 方面 。 设 备 应 该 理解 命令 ， 如 read() 和 write() 。 如 果 它 是 随机 访问 设备 ， 则 
它 也 应 有 命令 seek() 来 指定 下 一 个 传输 块 。 应 用 程序 通常 通过 文件 系统 接口 访问 这 样 的 设 
备 。 我 们 可 以 看 到 read() 、write() 、seek() 描述 了 块 存储 设备 的 基本 行为 ， 这 样 应 用 程 
序 就 不 必 关 注 这 些 设备 的 低层 差别 。 

操作 系统 本 身 ， 以 及 特殊 应 用 程序 ， 如 数据 库 管理 系统 ， 可 能 偏爱 将 块 设备 作为 简单 的 
线性 的 块 数组 来 访问 。 这 种 访问 模式 有 时 称 为 原始 VO (raw WO)。 如 果 应 用 程序 执行 它 自 己 
的 缓冲 ， 则 采用 文件 系统 会 引起 不 必要 的 额外 缓冲 。 同 样 ， 如 果 应 用 程序 提供 自己 的 文件 块 
或 域 的 锁定 ， 则 操作 系统 锁定 服务 至 少 显得 多 余 ， 并 且 在 最 坏 情 况 下 甚至 冲突 。 为 了 避免 这 
些 冲 突 ， 原 始 设备 访问 将 设备 控制 直接 交 给 应 用 程序 ， 无 需 通 过 操作 系统 。 可 是 ,没有 操作 
系统 服务 能 在 这 个 设备 上 执行 。 越 来 越 常见 的 一 种 折 中 办 法 是 ， 操 作 系统 允许 一 种 文件 操作 
模式 ， 以 便 禁 止 缓 冲 和 锁定 。 对 于 UNIX， 这 称 为 直接 MO (direct IO)。 

内 存 映射 文件 的 访问 可 以 在 块 设备 驱动 程序 之 上 。 内 存 映 射 接口 提供 通过 内 存 的 字 节 数 
组 来 访问 磁盘 存储 ， 而 不 提供 读 和 写 操作 。 映 射 文件 到 内 存 的 系统 调用 返回 包含 文件 副本 的 
虚拟 内 存 的 一 个 地 址 。 只 有 需要 访问 内 存 映像 ， 才 会 执行 实际 数据 传输 。 因 为 传输 采用 与 按 
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需 分 页 虚拟 内 存 访问 相同 的 机 制 来 处 理 ， 内 存 映射 IO 高 效 。 内 存 映射 也 方便 程序 员 ， 这 是 
因为 内 存 映射 文件 的 访问 如 同 内 存 读 写 一 样 简单 。 支 持 虚 拟 内 存 的 操作 系统 通常 采用 内 核 服 
务 的 映射 界面 。 例 如 ， 为 了 执行 程序 ， 操 作 系 统 映射 可 执行 程序 到 内 存 ， 并 且 转 移 控制 到 可 
执行 程序 的 人口 地 址 。 这 个 映射 接口 也 常用 于 内 核 访问 磁盘 的 交换 空间 。 

键盘 是 通过 字符 流 接口 ( character-stream interface) 访问 的 一 个 设备 例子 。 这 个 接口 的 
基本 系统 调用 能 使 应 用 程序 get O 或 put() 字符 。 通 过 这 种 接口 ， 可 以 构建 库 以 便 提供 按 
行 访问 ， 并且 具 有 缓冲 和 编辑 功能 (例如 ， 当 用 户 输 入 了 一 个 退 格 键 ， 可 以 从 输入 流 中 删除 
前 一 个 字符 )。 这 种 访问 方式 很 方便 用 于 输入 设备 ， 如 键盘 、 鼠 标 、modem， 这 些 设备 自发 
提供 输入 数据 ， 也 就 是 说 ， 应 用 程序 无 法 预计 这 些 输入 。 这 种 访问 方式 也 适用 于 输出 设备 ， 
如 打印 机 、 声 卡 ， 这 些 非常 符合 线性 流 字 节 的 概念 。 


13.3.2 ”网络 设备 


因为 网 络 IO 的 性 能 和 寻 址 的 特点 明显 不 同 于 磁盘 UO， 大 多 数 操作 系统 提供 的 网 
588] 络 10 接口 不 同 于 磁盘 的 read()-write()-seek() 接口 。 许 多 操作 系统 (包括 UNIX 和 
Windows) 的 这 个 接口 为 网 络 套 接 字 (socket) 接口 。 

想 想 墙 上 的 电源 插座 : 任何 电器 都 可 以 插入 。 同 样 ， 套 接 字 接口 的 系统 调用 能 使 应 用 程 
序 创建 一 个 套 接 字 ， 连 接 本 地 套 接 字 到 远程 地 址 (将 本 地 应 用 程序 与 由 远程 应 用 程序 创建 的 
套 接 字 相连 )， 监 听 要 与 本 地 套 接 字 相连 的 远程 应 用 程序 ， 通 过 连接 发 送 和 接收 数据 。 为 了 
支持 实现 服务 器 ， 套 接 字 接口 也 提供 函数 select() ， 以 便 管理 一 组 套 接 字 。 调 用 select () 
可 以 得 知 ， 哪 个 套 接 字 已 有 接收 数据 需要 处 理 ， 哪 个 套 接 字 已 有 空间 可 以 接收 数据 以 便 发 
送 。 采 用 select() 可 以 消除 轮 询 和 忙 等 (否则 ， 这 是 网 络 IO 所 需 的 )。 这 些 函 数 封装 网 络 
的 基本 功能 ， 从 而 大 大 加 快 分 布 式 应 用 程序 的 开发 ， 以 便利 用 底层 网 络 硬 件 和 协议 栈 。 

进程 间 通 信和 网 络 通信 的 许多 其 他 方式 也 已 实现 。 例 如 ，Windows 提供 一 个 网 卡 接口 ， 
另 一 个 网 络 协议 接口 。UNIX 长 期 以 来 在 网 络 技术 方面 一 直 领 先 ， 如 半 双 工 管道 、 全 双 工 
FIFO、 全 双 工 STREAMS ( 流 )、 消 息 队 列 和 套 接 字 。 有 关 UNIX 联网 信息 请 参见 A.9 节 。 


13.3.3 ”时 钟 与 定时 器 


大 多 数 计算 机 都 有 硬件 时 钟 和 定时 器 ， 以 便 提供 三 种 基本 功能 : 

e 获取 当前 时 间 。 

o 获取 经 过 时 间 。 

o 设置 定时 器 ， 以 便 在 工时 触发 操作 Xo 
这 些 功能 大 量 用 于 操作 系统 和 时 间 人 敏感 的 应 用 程序 。 不 过 ， 实 现 这 些 函 数 的 系统 调用 不 属于 
操作 系统 标准 。 

测量 经 过 时 间 和 触发 操作 的 硬件 称 为 可 编程 间隔 定时 器 ( programmable interval timer). 
它 可 以 设置 成 等 待 一 定 的 时 间 ， 然 后 触发 中 断 ; 它 可 以 设 成 做 一 次 或 多 次 〈 以 便 产生 周期 中 
断 )。 调 度 程序 采用 这 种 机 制 产生 中 断 ， 以 便 抢占 时 间 片 用 完 的 进程 。 磁 盘 IO 子 系统 采用 
它 ， 定 期 刷新 脏 的 缓存 缓冲 到 磁盘 ; 网 络 子 系统 采用 它 ， 定 时 取消 由 于 网 络 拥塞 或 故障 而 太 
慢 的 一 些 操 作 。 操 作 系 统 还 可 以 提供 接口 ， 以 便 用 户 进 程 使 用 定时 器 。 操 作 系 统 采用 模拟 虚 
拟 时 钟 ， 支 持 比 定时 器 硬件 信道 数量 更 多 的 定时 器 请 求 。 为 此 ， 内 核 (或 定时 器 设备 驱动 程 

F) 维护 一 个 列表 ， 这 是 内 核 程序 和 用 户 请 求 所 需 的 、 并 且 按 时 间 排 序 的 中 断 列表 。 内 核 为 
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最 早 时 间 设置 定时 器 。 当 定时 器 中 断 时 ， 内 核 通知 请 求 者 ， 并 且 用 下 一 个 最 早 的 时 间 重 新 加 
载 定时 器 。 

对 于 许多 计算 机 ， 硬 件 时 钟 生成 的 中 断 率 为 每 秒 18 ~ 60 次 。 这 种 频率 相对 粗糙 ， 因 为 
现代 计算 机 每 秒 可 以 执行 数 亿 条 指令 。 和 触发 的 精度 受 限 于 定时 器 的 粗糙 频率 和 维护 虚拟 时 钟 
的 开销 。 此 外 ， 如 果 采 用 定时 器 计时 单元 来 维护 系统 时 钟 ， 系 统 时 钟 就 会 偏 移 。 对 于 大 多 数 
计算 机 ， 硬 件 时 钟 是 由 高 频 计 数 器 来 构造 的 。 对 于 有 些 计 算 机 ， 这 个 计数 器 的 值 可 以 通过 设 
备 寄存 器 来 读 取 ， 这 可 作为 高 精度 的 时 钟 。 虽 然 这 种 时 钟 不 产生 中 断 ， 但 是 它 能 提供 时 间 间 
隔 的 准确 测量 。 


13.3.4 非 阻塞 与 异步 1O 


系统 调用 接口 的 另 一 方面 涉及 选择 阻塞 IO 与 非 阻 塞 JO。 当 应 用 程序 执行 阻塞 
(blocking) 系统 调用 时 ， 应 用 程序 的 执行 就 被 挂 起 。 应 用 程序 会 从 操作 系统 的 运行 队列 移 到 
等 待 队列 。 当 系统 调用 完成 后 ， 应 用 程序 被 移 回 到 运行 队列 ， 符 合 恢复 执行 。 当 它 恢复 执行 
时 ， 它 会 收 到 系统 调用 的 返回 值 。1/O 设备 执行 的 物理 动作 常常 是 异步 的 ， 执 行 时 间 也 是 可 
变 的 或 不 可 预计 的 。 然 而 ， 大 多 数 操作 系统 为 应 用 程序 接口 采用 阻塞 系统 调用 ， 因 为 阻塞 应 
用 代码 比 非 阻塞 应 用 代码 更 加 容易 理解 。 

有 些 用 户 级 进程 需要 使 用 非 阻塞 ( nonblocking) UO。 一 个 例子 是 用 户 接口 ， 用 来 接收 
键盘 和 鼠标 输入 ， 同 时 处 理 数据 并 显示 到 屏幕 。 另 一 个 例子 是 视频 应 用 程序 ， 用 来 从 磁盘 文 
件 上 读 取 帧 ， 同 时 解压 并 显示 输出 到 显示 器 。 

应 用 程序 开发 人 员 可 以 交叉 IO 与 执行 的 一 种 方法 是 ， 编 写 多 线程 应 用 程序 。 有 些 线程 
可 以 执行 阻塞 系统 调用 ， 而 其 他 线程 继续 执行 。 有 的 操作 系统 提供 非 阻塞 IO 系统 调用 。 非 
阻塞 调用 不 会 很 长 时 间 停 止 应 用 程序 的 执行 。 相 反 ， 它 会 很 快 返回 ， 其 返回 值 表示 已 经 传输 
了 多 少 字 节 。 

非 阻 塞 系统 调用 的 一 种 蔡 代 方法 是 异步 系统 调用 。 蜡 步调 用 立即 返回 ， 无需 等 待 UO 完 
成 。 应 用 程序 继续 执行 代码 。 在 将 来 IO 完成 时 ， 或 通过 设置 应 用 程序 地 址 空间 内 的 某 个 变 
H, 或 通过 触发 信号 或 软件 中 断 或 在 线性 控制 流 之 外 执行 的 回调 函数 ， 来 通知 应 用 程序 。 非 
阻塞 与 异步 的 系统 调用 的 区 别 是 ， 非 阻塞 调用 read() 立即 返回 任何 可 用 的 数据 ， 读 取 的 数 
据 等 于 或 少 于 请 求 的 字 节 数 ， 或 为 零 。 异 步调 用 read() 要 求 的 传输 会 完整 执行 ， 但 是 完成 
是 在 将 来 的 某 个 特定 时 间 。 图 13-8 给 出 了 这 两 种 IO 方法 。 





图 13-8 两 种 IO 方法 
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在 现代 操作 系统 中 ， 经 常 发 生 蜡 步 活动 。 通 常 ， 它 们 不 会 暴露 给 用 户 或 应 用 程序 ， 而 是 
包含 在 操作 系统 操作 中 。 例 如 ， 磁 盘 和 网 络 TO。 在 默认 情况 下 ， 当 应 用 程序 发 出 网 络 发 送 
请 求 或 磁盘 写 人 请 求 时 ， 操 作 系统 记 住 请 求 ， 缓 冲 WO， 并 返回 到 应 用 程序 。 如 有 可 能 ， 为 
了 优化 整体 系统 性 能 ， 操 作 系 统 完成 请 求 。 如 果 临 时 发 生 系统 故障 ， 则 应 用 程序 会 丢失 任何 
途中 请 求 。 因 此 ， 操 作 系 统 通常 限制 缓冲 请 求 的 时 间 。 例 如 ， 有 些 版 本 的 UNIX 每 隔 30 秒 
刷新 磁盘 缓冲 区 ， 每 个 请 求 在 30 秒 内 会 被 刷新 。 应 用 程序 内 的 数据 一 致 性 由 内 核 维护 ， 内 
核 在 发 出 VO 请 求 到 设备 之 前 读 取 数 据 ， 确 保 尚未 写 人 数据 返回 给 请 求 读者 。 注 意 ， 多 个 线 
程 对 同一 文件 执行 IO 可 能 不 会 收 到 一 致 的 数据 ， 它 取决 于 内 核 如 何 实现 UO。 在 这 种 情况 
下 ， 线 程 可 能 需要 使 用 加 锁 协 议 。 有 些 IO 请 求 需要 立即 执行 ， 这 样 IO 系统 调用 通常 提供 
方法 ， 以 便 指 定 特定 设备 的 给 定 请 求 或 IO 应 当 同 步 执 行 。 

非 阻 塞 行为 的 一 个 很 好 的 例子 是 ， 用 于 网 络 套 接 字 的 系统 调用 select() 。 这 个 系统 调 
用 需要 一 个 参数 来 指定 最 大 等 待 时 间 。 通 过 设置 为 0， 应 用 程序 可 以 轮流 检测 网 络 活动 而 
无 需 阻 塞 。 但 是 采用 select() 引入 额外 的 开销 ， 因 为 调用 select() 只 检查 是 否 可 能 进行 
IO。 对 于 数据 传输 ， 在 select() 之 后 ， 还 需要 采用 某 种 类 型 的 命令 read() 或 write()。 
在 Mach 中 ， 有 这 种 方法 的 变种 ， 即 阻塞 多 读 调 用 。 通 过 这 一 系统 调用 可 以 对 多 个 设备 指定 
所 需 的 读 取 ， 而 且 只 要 一 个 完成 就 可 返回 。 


13.3.5 ”向量 MO 


有 些 操作 系统 通过 应 用 程序 接口 提供 另 一 重要 类 型 的 MO。 向 量 UVO (Vectored 1/0) fù 
许 系统 调用 ， 来 执行 涉及 多 个 位 置 的 多 个 IO 操作 。 例 如 ，UNIX 系统 调用 ready 接收 多 组 
冲 区 的 一 个 向 量 ， 并 且 从 源 读 取 到 向 量 或 将 向 量 写 和 人 到 目的 。 同 一 传输 可 以 由 多 个 系统 调用 
的 引用 产生 ， 但 是 这 种 分 散 收集 (scatter-gather) 方法 由 于 各 种 原因 还 是 有 用 的 。 

多 个 单独 缓冲 区 可 以 通过 一 个 系统 调用 来 传输 它们 的 内 容 ， 避 免 上 下 文 切换 和 系统 调用 
消耗 。 没 有 向 量 UO ， 数 据 可 能 首先 需要 按 正确 顺序 传输 到 较 大 的 缓冲 区 ， 然 后 发 送 ， 因 此 
效率 低下 。 此 外 ， 有 些 版 本 的 分 散 收集 提供 原子 性 ， 确 保 所 有 IO 都 能 无 间断 地 完成 (并且 
当 其 他 线程 也 执行 涉及 这 些 缓冲 区 的 IO 时 避免 数据 损坏 )。 程 序 员 尽 可 能 地 利用 分 散 收集 
V/O 功能 ， 以 便 增 加 吞吐 量 并 降低 系统 开销 。 


13.4 ”内 核 1/0 子 系统 


内 核 提供 与 VO 相关 的 许多 服务 。 许 多 服务 ， 如 调度 、 缓 冲 、 绥 存 、 假 脱 机 、 设 备 预 留 
及 错误 处 理 ， 由 内 核 VO 子 系统 提供 ; 并 建立 在 硬件 和 设备 驱动 程序 的 基础 设施 之 上 。LO 
子 系统 也 负责 保护 自己 免 受 错误 进程 和 恶意 用 户 的 侵扰 。 


13.4.1 10 调度 


调度 一 组 VO 请 求 意味 着 ,确定 好 的 顺序 来 执行 它们 。 应 用 程序 执行 系统 调用 的 顺序 很 
少 是 最 佳 的 。 调 度 可 以 改善 系统 整体 性 能 ， 可 以 在 进程 间 公 平 共享 设备 访问 ， 可 以 减少 IO 
完成 所 需 的 平均 等 待 时 间 。 这 里 可 以 通过 一 个 简单 的 例子 来 说 明 。 假 设 磁 臂 位 于 磁盘 开头 ， 
三 个 应 用 程序 对 这 个 磁盘 执行 阻塞 读 取 调用 。 应 用 程序 1 请 求 磁盘 结束 附近 的 块 ， 应 用 程序 
2 请 求 磁盘 开始 附近 的 块 ， 而 应 用 程序 3 请 求 磁盘 中 间 部 分 的 块 。 操 作 系 统 按照 2、3、! 的 
顺序 来 处 理应 用 程序 ， 可 以 减少 磁 臂 移动 的 距离 。 按 这 种 方式 重新 排列 服务 顺序 就 是 IO 调 
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度 的 核心 。 

操作 系统 开发 人 员 通 过 为 每 个 设备 维护 一 个 请 求 等 待 队列 ， 来 实现 队列 。 当 应 用 程序 
发 出 阻塞 VO 的 系统 调用 时 ， 该 请 求 被 添加 到 相应 设备 的 队列 。IO 调度 程序 重新 安排 队列 
顺序 ， 以 便 提 高 系统 的 总 体 效 率 和 应 用 程序 的 平均 响应 时 间 。 操 作 系统 也 可 以 试图 公平 ， 这 
样 没 有 应 用 程序 会 得 到 特别 差 的 服务 ; 或 者 对 那些 延迟 敏感 的 请 求 ， 可 以 给 予 比较 优先 的 服 
务 。 例 如 ， 虚 拟 内 存 子 系统 的 请 求 可 能 优先 于 应 用 程序 的 请 求 。12.4 节 详 细 讨论 了 磁盘 IO 
的 多 个 调度 算法 。 

当 内 核 支持 异步 IO 时 ， 它 必须 能 够 同时 跟踪 许多 VO 请 求 。 为 此 ， 操 作 系 统 可 能 会 
将 等 待 队 列 附 加 到 设备 状态 表 ( device-status table)。 内 核 管理 此 表 ， 其 中 每 个 条 目 对 应 每 
个 IO 设备 ， 如 图 13-9 所 示 。 每 个 表 条 目 表明 设备 的 类 型 、 地 址 和 状态 (state) RRETHE, 
空闲 或 忙 )。 如 果 设 备 忙于 一 个 请 求 ， 则 请 求 的 类 型 和 其 他 参数 会 被 保存 在 该 设备 的 表 条 
目 中 。 





图 13-9 设备 状态 表 


调度 IO 操作 是 VO 子 系统 提高 计算 机 效率 的 一 种 方法 。 另 一 种 方法 是 ， 通 过 缓冲 、 组 
存 和 假 脱 机 ， 使 用 内 存 或 磁盘 的 存储 空间 。 


13.4.2 ”缓冲 


当然 ， 缓 冲 区 (buffer) 是 一 块 内 存 区 域 ， 用 于 保存 在 两 个 设备 之 间或 在 设备 和 应 用 程 
序 之 间 传 输 的 数据 。 采 用 缓冲 有 三 个 理由 。 一 个 理由 是 ， 处 理 数 据 流 的 生产 者 与 消费 者 之 间 
的 速度 不 匹配 。 例 如 ， 假 如 通过 调制 解 调 器 正在 接收 一 个 文件 ， 并 且 保存 到 硬盘 。 调 制 解 调 
器 大 约 比 硬盘 慢 一 千 倍 。 这 样 ， 创 建 一 个 缓冲 区 在 内 存 中 ， 以 便 累积 从 调制 解 调 器 处 接收 的 
字 节 。 当 整个 数据 缓冲 区 填 满 时 ， 就 可 以 通过 一 次 操作 将 缓冲 区 写 到 磁盘 。 由 于 写 人 磁盘 不 
是 即时 的 而 且 调制 解 调 器 仍然 需要 一 个 空间 继续 存储 额外 的 输入 数据 ， 所 以 采用 两 个 缓冲 
区 。 在 调制 解 调 器 填 满 第 一 个 缓冲 区 后 ， 就 请 求 写 和 磁盘。 接着 ， 调 制 解 调 器 开始 填写 第 二 
个 缓冲 区 ， 而 这 时 第 一 个 缓冲 区 正 被 写 人 磁盘 。 等 到 调制 解 调 器 写 满 第 二 个 缓冲 区 时 ， 第 一 
个 缓冲 区 的 磁盘 写 人 也 应 完成 ; 因此 调制 解 调 器 可 以 切换 到 第 一 个 缓冲 区 ， 而 磁盘 可 以 写 第 
二 个 缓冲 区 。 这 种 双 缓 冲 (double buffering) 解 耦 数据 的 生产 者 与 消费 者 ， 因 此 放松 两 者 之 
间 的 时 序 要 求 。 这 种 解 耦 需 求 如 图 13-10 所 示 ， 该 图 列 出 了 典型 计算 机 硬件 的 设备 速度 的 巨 
大 差异 。 
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图 13-10 Sun Enterprise 6000 的 设备 传输 率 (对 数 形式 ) 


缓冲 的 第 二 种 用 途 是 ， 协 调 传 输 大 小 不 一 数据 的 设备 。 这 种 不 一 致 在 计算 机 网 络 中 特别 常 


[593] W, 缓冲 区 大 量 用 于 消息 的 分 段 和 重组 。 在 发 送 端 ， 一 个 大 的 消息 分 成 若干 小 的 网 络 分 组 。 这 


些 网 络 分 组 通过 网 络 传输 ， 而 接收 端 将 它们 放 在 重组 缓冲 区 内 ， 以 便 生成 完整 的 源 数据 映像 。 

绥 冲 的 第 三 种 用 途 是， 支持 应 用 程序 IO 的 复制 语义 。 通 过 例子 可 以 阐明 “复制 语义 ”的 
含义 。 假 设 应 用 程序 有 一 个 数据 缓冲 区 ， 它 希望 写 到 磁盘 。 它 调用 系统 调用 write() ， 提 供 
缓冲 区 的 指针 和 表示 所 写字 节 数 量 的 整数 。 在 系统 调用 返回 后 ， 如 果 应 用 程序 更 改 缓冲 区 的 
内 容 ， 那 么 会 发 生 什么 ?采用 复制 语义 (copy semantics)， 写 到 磁盘 的 数据 版 本 保证 是 应 用 程 
序 系统 调用 时 的 版 本 ， 而 与 应 用 程序 缓冲 区 的 任何 后 续 更 改 无 关 。 操 作 系统 保证 复制 语义 的 
一 种 简单 方式 是 ， 系 统 调 用 write 在 返回 到 应 用 程序 之 前 ， 复 制 应 用 程序 缓冲 区 到 内 核 组 
冲 区 。 磁 盘 写 入 通过 内 核 缓冲 区 来 执行 ， 以 便 应 用 程序 缓冲 区 的 后 续 更 改 没有 影响 。 内 核 组 
冲 区 和 应 用 程序 数据 空间 的 数据 复制 在 操作 系统 中 很 常见 ， 尽 管 由 于 干净 语义 ,这 个 操作 引 
人 了 开销 。 通 过 巧妙 使 用 虚拟 内 存 映 射 和 写 时 复制 页 面 保护 ， 可 以 更 有 效 地 得 到 同样 的 效果 。 


13.4.3 缓存 


缓存 (cache) 是 保存 数据 副本 的 高 速 内 存 区 域 。 访 问 缓存 副本 比 访问 原版 更 加 有 效 。 例 
如 ， 正 在 运行 进程 的 指令 保存 在 磁盘 上 ， 缓 存在 物理 内 存 上 ， 并 再 次 复制 到 CPU 的 次 缓存 
和 主 缓存 。 缓 冲 和 缓存 的 区 别 是 ， 缓 冲 可 以 保存 数据 项 的 唯一 的 现 有 副本 ， 而 根据 定义 缓存 
只 是 提供 了 一 个 位 于 其 他 地 方 的 数据 项 的 更 快 存储 副本 。 

缓存 和 缓冲 的 功能 不 同 ， 但 是 有 时 一 个 内 存 区 域 可 以 用 于 两 个 目的 。 例 如 ， 为 了 保留 复 
制 语义 和 有 效 调度 磁盘 IO ， 操 作 系 统 采 用 内 存 中 的 缓冲 区 来 保存 磁盘 数据 。 这 些 缓 冲 区 也 
用 作 缓 存 ， 以 便 提高 文件 的 1/0 效率 ; 这 些 文件 可 被 多 个 程序 共享 ， 或 者 快速 地 写 人 和 重读 。 
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当 内 核 收 到 文件 IO 请 求 时 ， 内 核 首先 访问 缓冲 区 缓存 ， 以 便 查看 文件 区 域 是 否 已 经 在 内 存 
中 可 用 。 如 果 是 ， 可 以 避免 或 延迟 物理 磁盘 UO。 此 外 ， 磁 盘 写 人 在 数秒 内 会 累积 到 缓冲 组 
存 ， 以 汇集 大 量 传输 来 允许 高 效 写 人 调度 。 


13.4.4 假 脱 机 与 设备 预 留 


BEAL (spool) 是 保存 设备 输出 的 缓冲 区 ， 这 些 设 备 ， 如 打印 机 ， 不 能 接收 交叉 的 数 
据 流 。 虽 然 打印 机 只 能 一 次 打印 一 个 任务 , 但 是 多 个 应 用 程序 可 能 希望 并 发 打印 输出 ， 而 不 
能 让 它们 的 输出 混合 在 一 起 。 操 作 系统 通过 拦截 所 有 打印 输出 ， 来 解决 这 一 问题 。 应 用 程序 
的 输出 先是 假 脱 机 到 一 个 单独 的 磁盘 文件 。 当 应 用 程序 完成 打印 时 ， 假 脱 机 系统 排序 相应 的 
假 脱 机 文件 ， 以 便 输 出 到 打印 机 。 假 脱 机 系统 一 次 一 个 地 复制 排队 假 脱 机 文件 到 打印 机 。 对 
于 有 些 操作 系统 ， 假 脱 机 由 系统 守护 进程 来 管理 ; 对 于 其 他 ， 它 由 内 核 线程 来 处 理 。 不 管 怎 
样 ， 操 作 系 统 都 提供 了 一 个 控制 界面 ， 以 便 用 户 和 系统 管理 员 显示 队列 ， 删 除 那些 尚未 打印 
的 而 不 再 需要 的 任务 ， 当 打印 机 工作 时 暂停 打印 ， 等 等 。 

有 些 设备 ， 如 磁带 机 和 打印 机 ， 无 法 实现 复 用 多 个 并 发 应 用 程序 的 1O 请 求 。 假 脱 机 
是 ， 操 作 系 统 能 够 协调 并 发 输出 的 一 种 方式 。 处 理 并 发 设备 访问 的 另 一 种 方法 是 提供 明确 的 
协调 功能 。 有 的 操作 系统 (包括 VMS) 提供 支持 设备 的 互 斥 访问 ， 以 便 允 许 进 程 分 配 一 个 空 
闲 设备 以 及 不 再 需要 时 释放 设备 。 其 他 操作 系统 对 这 种 设备 的 打开 文件 句柄 有 所 限制 。 许 多 
操作 系统 提供 函数 ， 人 允许 进程 协调 互 斥 访问 。 例 如 ，Windows 提供 系统 调用 来 等 待 设备 对 象 
变 得 可 用 。 系 统 调用 OpenFile() 也 有 一 个 参数 ， 以 便 声 明 其 他 并 发 线程 允许 的 访问 类 型 。 
对 于 这 些 系统 ， 应 用 程序 需要 自己 来 避免 死 锁 。 


13.4.5 ”错误 处 理 


采用 保护 内 存 的 操作 系统 可 以 防范 多 种 硬件 和 应 用 程序 的 错误 ， 这 样 完全 的 系统 故 
障 通常 不 是 源 于 次 要 的 机 械 故 障 。 设 备 和 JI/O 传输 的 故障 可 以 有 多 种 原因 ， 或 者 由 于 暂时 原 
因 ， 如 网 络 超载 ; 或 者 由 于 “永久 ”原因 ， 如 磁盘 控制 器 变 得 有 缺 聊 。 操 作 系 统 经 常 可 以 有 
效 补偿 瞬 态 故障 。 例 如 ， 磁 盘 read() 故障 可 以 导致 read() 重 试 ， 网 络 send() 故障 可 以 导致 
resend() (如 果 协 议 如 此 指定 )。 不 过 ， 如 果 某 个 重要 系统 组 件 出 现 了 永久 故障 ， 操 作 系 统 
不 太 可 能 恢复 。 

作为 一 般 规则 ，I/O 系统 调用 通常 返回 一 位 的 调用 状态 信息 ， 以 表示 成 功 或 失败 。 对 于 
UNIX 操作 系统 ， 名 为 errno 的 一 个 额外 整 型 变量 用 于 返回 错误 代码 ( 约 有 100 个 )， 以 便 指 
出 失败 的 大 概 性 质 (例如 ， 参 数 超过 范围 、 坏 指针 、 文 件 未 打开 等 )。 相 比 之 下 ， 有 的 硬件 
可 以 提供 很 详细 的 错误 信息 ， 虽 然 目 前 的 许多 操作 系统 并 不 将 这 些 信息 传递 给 应 用 程序 。 例 
如 ，SCSI 协 议 报告 SCSI 设备 故障 的 详细 级 别 分 为 三 个 : 感应 键 (sense key)， 用 于 标识 故障 
的 一 般 性 质 ， 如 硬件 错误 或 非法 请 求 ; 额外 感应 代码 (additional sense code)， 用 于 表示 故障 
类 型 ， 如 错误 命令 参数 或 自 检 失 败 ; 额外 感应 代码 修饰 词 (additional sense-code qualifier), 
用 于 给 出 更 详细 信息 ， 如 哪个 命令 参数 出 错 或 哪个 硬件 子 系统 自 检 和 失败 。 此 外 ， 许 多 SCSI 
设备 维护 一 个 出 错 日 志 信 息 的 内 部 页 面 以 便 主机 查询 ， 不 过 这 一 功能 实际 很 少 使 用 。 


13.4.6 1/0 保护 
错误 与 保护 问题 密切 相关 。 用 户 程序 通过 试图 发 出 非法 IO 指令 ， 可 能 有 意 或 无 意 地 中 
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断 正 常 系统 操作 。 可 以 采用 各 种 机 制 ， 以 便 确保 系统 内 不 会 发 生 中 断 。 

为 了 防止 用 户 执行 非法 VO, Fee LAA IO 
指令 为 特权 指令 。 因 此 ， 用 户 不 能 直接 发 出 IO 指 
令 ， 它 们 必须 通过 操作 系统 来 进行 。 为 了 进行 UO， 
用 户 程序 执行 系统 调用 ， 以 便 请 求 操作 系统 代表 用 
户 程序 执行 IO 操作 (如 图 13-11 所 示 )。 操 作 系统 
在 监控 模式 下 检查 请 求 是 否 合法 ; 如 合法 ， 处 理 IO 
请 求 。 操 作 系 统 然 后 返回 用 户 。 

此 外 ， 内 存 保护 系统 保护 任何 内 存 映 射 和 1/O 
端口 内 存 位 置 ， 以 便 阻止 用 户 访 问 。 注 意 ， 内 核 不 
能 简单 地 拒绝 所 有 用 户 访问 。 例 如 ， 大 多 数 图 形 游 
戏 和 视频 编辑 与 播放 软件 需要 直接 访问 内 存 映 射 图 
形 控制 器 的 内 存 ， 以 便 加 速 图 形 性 能 。 在 这 种 情况 
下 ， 内 核 可 能 提供 一 种 锁定 机 制 ， 人 允许 图 形 内 存 的 
一 部 分 (代表 一 个 屏幕 窗口 ) 一 次 分 配给 一 个 进程 。 图 13-11 使 用 系统 调用 来 执行 IO 


13.4.7 ”内 核 数 据 结构 


内 核 需要 保存 IO 组 件 使 用 的 状态 信息 。 它 通过 各 种 内 核 数 据 结构 (如 11.1 节 的 打开 文 
件 表 结构 ) 来 完成 。 内 核 使 用 许多 类 似 的 结构 ， 来 跟踪 网 络 连接 、 字 符 设备 通信 和 其 他 IO 
活动 等 。 

UNIX 提供 各 种 实体 的 文件 系统 访问 ， 如 用 户 文件 、 原 始 设备 和 进程 的 地 址 空间 。 虽 然 
这 些 实体 都 支持 操作 read() ， 但 是 语义 不 同 。 例 如 ， 当 读 取 用 户 文件 时 ， 内 核 需 要 首先 检 
查 缓冲 区 缓存 ， 然 后 决定 是 否 执行 磁盘 11JO。 当 读 取 原 始 磁盘 时 ， 内 核 需 要 确保 ， 请 求 大 小 
是 磁盘 扇 区 大 小 的 倍数 而 且 与 扇 区 边界 对 齐 。 当 读 取 进 程 映 像 时 ， 内 核 只 需 从 内 存 中 读 取 数 
Hio UNIX 通过 面向 对 象 技 术 采 用 统一 结构 来 封装 这 些 差异 。 打 开 文件 记录 ， 如 图 13-12 所 
示 ， 包 括 一 个 分 派 表 ， 该 表 含 有 对 应 于 文件 类 型 的 适当 程序 的 指针 。 

有 些 操作 系统 更 为 广泛 地 使 用 了 面向 对 象 方法 。 例 如 ，Windows 采用 消息 传递 来 实现 
VO. VO 请 求 转 成 消息 ， 通 过 内 核发 到 IO 管理 器 ， 再 交 到 设备 驱动 程序 以 便 更 改 消息 内 容 。 
对 于 输出 ， 消 息 包括 要 写 的 数据 。 对 于 输入 ， 消 息 包括 接收 数据 的 缓冲 。 消 息 传递 方法 ， 与 
采用 共享 数据 结构 的 程序 调用 技术 相 比 ， 可 能 增加 开销 ， 但 是 它 简化 了 IO 系统 的 结构 和 设 
计 ， 并 增加 了 灵活 性 。 


13.4.8 内 核 MO 子 系统 小 结 


KZ, VO 子 系统 协调 大 量 的 服务 组 合 ， 以 便 用 于 应 用 程序 和 其 他 内 核 部 件 。I/O FA 
统 监 督 这 些 程序 : 

o 文件 和 设备 的 命名 空间 的 管理 

o 文件 和 设备 的 访问 控制 

© 操作 控制 (例如 ,调制解调器 不 能 使 用 seek() ) 

© 文件 系统 的 空间 分 配 

© 设备 分 配 


内 核 
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o 缓冲 、 缓 存 和 假 脱 机 
e 1/0 调度 
© 设备 状态 监控 、 错 误 处 理 和 故障 恢复 
© 设备 驱动 程序 的 配置 和 初始 化 
VO 子 系统 的 上 层 通过 设备 驱动 程序 提供 的 统一 接口 来 访问 设备 。 


系统 范围 的 打开 文件 表 




















ee 


内 核 内 存 
图 13-12 UNIX IO 的 内 核 结构 


13.5 1O 请 求 转 成 硬件 操作 


虽然 前 面 讨 论 了 设备 驱动 程序 与 设备 控制 器 之 间 的 握手 ,但 是 还 没有 解释 操作 系统 如 何 
将 应 用 程序 请 求 连 到 网 络 线路 或 特定 的 磁盘 扇 区 。 例 如 ， 考虑 一 下 从 磁盘 读 取 文件 。 应 用 程 
序 通过 文件 名 称 引用 数据 。 对 于 磁盘 ， 文 件 系统 通过 文件 目录 对 文件 名 称 进 行 映射 ， 从 而 得 
到 文件 的 空间 分 配 。 例 如 ，MS-DOS 将 文件 名 称 映射 到 一 个 数字 ， 以 表示 文件 访问 表 中 的 条 
目 ， 而 这 个 表 条 目 说 明了 哪些 磁盘 块 被 分 配给 文件 。UNIX 将 文件 名 称 映射 到 一 个 inode 数 
字 ， 而 相应 的 inode 包含 了 空间 分 配 信息 。 但 是 ， 如 何 建立 从 文件 名 称 到 磁盘 控制 器 的 连接 
(硬件 端口 地 址 或 内 存 映射 控制 器 寄存 器 ) ? 

一 种 方法 由 MS-DOS (相对 简单 的 操作 系统 ) 采用 。MS-DOS 文件 名 称 的 第 一 部 分 ， 在 
冒号 之 前 ， 表 示 特 定 硬 件 设备 的 字符 串 。 例 如 , C: 是 主 硬盘 的 每 个 文件 名 称 的 第 一 部 分 。C: 
表示 主 硬盘 的 事实 是 内 置 于 操作 系统 中 的 ; C 通过 设备 表 映 射 到 特定 的 端口 地 址 。 由 于 冒 
号 分 隔 符 ， 设 备 名 称 空间 不 同 于 文件 系统 名 称 空间 。 这 种 分 离 容易 使 得 操作 系统 为 每 个 设备 
关联 额外 功能 。 例 如 ， 对 写 到 打印 机 的 任何 文件 ， 可 以 容易 地 调用 假 脱 机 。 

相反 ， 如 果 设 备 名 称 空间 集成 到 常规 文件 系统 名 称 空间 ， 如 UNIX， 则 自动 提供 常规 文 
件 系统 服务 。 如 果 文 件 系统 提供 对 所 有 文件 名 称 进 行 所 有 权 和 访问 控制 ， 则 设备 就 有 所 有 权 
和 访问 控制 。 由 于 文件 保存 在 设备 上 ， 这 种 接口 提供 对 IO 系统 的 两 级 访问 。 名 称 可 以 用 来 
访问 设备 本 身 ， 或 者 用 来 访问 存储 在 设备 上 的 文件 。 

UNIX 通过 常规 文件 系统 名 称 空间 来 表示 设备 名 称 。 与 具有 冒号 分 隔 符 的 MS-DOS X 
件 名 称 不 同 ，UNIX 路 径 名 称 没 有 明确 区 分 设备 部 分 。 事 实 上 ， 路 径 名 称 中 没有 设备 名 称 
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的 部 分 。UNIX 有 一 个 安装 表 (mount table)， 以 便 将 路 径 名 称 的 前 缀 与 特定 设备 名 称 关 联 ，。 
为 了 解析 路 径 名 ，UNIX 检查 安装 表 内 的 名 称 ， 以 查找 最 长 的 匹配 前 级 ; 安装 表 内 的 相应 
条 目 给 出 了 设备 名 称 。 这 个 设备 名 称 在 文件 系统 名 称 空间 内 也 有 和 名称。 当 UNIX 在 文件 系 
统 目录 结构 中 查找 此 名 称 时 ， 它 查找 到 的 不 是 inode 号 ， 而 是 设备 号 (E, 次 〉(( major, 
minor ) ) 。 主 设备 号 表示 处 理 这 种 设备 IO 的 设备 驱动 程序 。 次 设备 号 传 到 设备 驱动 程序 ， 
以 索引 设备 表 。 设 备 表 的 相应 条 目 给 出 设备 控制 器 的 端口 地 址 或 内 存 映 射 地 址 。 

现代 操作 系统 在 请 求 和 物理 设备 控制 器 之 间 的 路 径 中 ， 具 有 多 个 阶段 的 查找 表 ， 从 而 获 
得 很 大 的 灵活 性 。 从 应 用 程序 到 驱动 程序 的 请 求 传递 机 制 是 通用 的 。 因 此 ， 不 必 重 新 编译 内 
核 也 能 为 计算 机 引入 新 设备 和 新 驱动 程序 。 事 实 上 ， 有 的 操作 系统 能 够 按 需 加 载 设备 驱动 程 
序 。 在 启动 时 ， 系 统 首先 检测 硬件 总 线 以 确定 有 哪些 设备 ， 接 着 操作 系统 就 马上 或 当 首次 请 
SR LO 时 加 载 所 需 驱动 程序 。 

接 下 来 描述 阻塞 读 请 求 的 典型 生命 周期 ， 如 图 13-13 所 示 。 该 图 说 明了 IO 操作 需要 很 
多 步骤 ， 这 也 消耗 大 量 的 CPU 时 间 。 


用 户 进程 











从 系统 调用 返回 


内 核 JO 子 系统 


内 核 10 子 系统 


设备 控制 器 命令 中 断 处 理 程序 


中 断 


设备 控制 器 





13-13 1O 请 求 的 生命 周期 
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1. 针对 以 前 已 经 打开 文件 的 文件 描述 符 ， 进 程 调用 阻塞 系统 调用 read() 。 

2. 内 核 系 统 调 用 代码 检查 参数 是 否 正确 。 对 于 输入 ， 如 果 数 据 已 在 缓冲 缓存 ， 则 数据 
返回 到 进程 ， 并 完成 IO 请 求 。 

3. 和 否则， 必须 执行 物理 IO 请 求 。 该 进程 从 运行 队列 移 到 设备 的 等 待 队列 ， 并 调度 IO 
PR. Ba, VO 子 系统 发 送 请 求 到 设备 驱动 程序 。 根 据 操作 系统 的 不 同 ， 这 个 请 求 可 以 通 
过 子 程序 调用 或 内 核 消息 来 传递 。 

4. 设备 驱动 程序 分 配 内 核 缓冲 区 空间 ， 来 接收 数据 并 调度 TO。 最 终 ， 设 备 驱 动 程序 通 
过 写 入 设备 控制 器 寄存 器 ， 对 设备 控制 器 发 送 命令 。 

5. 设备 控制 器 控制 设备 硬件 ， 以 便 执行 数据 传输 。 

6. 驱动 程序 可 以 轮 询 检测 状态 和 数据 ， 或 者 它 可 以 通过 DMA 来 传输 到 内 核 内 存 。 假 设 
DMA 控制 器 管理 传输 ， 当 传输 完成 时 它 会 产生 中 断 。 

7. 正确 的 中 断 处 理 程序 通过 中 断 向 量 表 收 到 中 断 ， 保 存 任何 必要 的 数据 ， 并 向 内 核 设 
备 驱动 程序 发 送信 号 通知 ， 并 从 中 断 返 回 。 

8. 设备 驱动 程序 接收 信号 ， 确 定 IO 请 求 是 否 完成 ， 确 定 请 求 状 态 ， 并 对 内 核 IO 子 系 
统 发 送信 号 来 通知 请 求 已 经 完成 。 

9. 内 核 传输 数据 或 返回 代码 到 请 求 进 程 的 地 址 空间 ， 并 且 将 进程 从 等 待 队列 移 到 就 绪 
队列 。 

10. 移动 进程 到 就 绪 队列 使 得 这 个 进程 不 再 阻塞 。 当 调度 程序 为 进程 分 配 CPU 时 ， 该 
进程 就 在 系统 调用 完成 后 继续 执行 。 


13.6 流 


UNIX System V 有 一 个 有 趣 的 机 制 ， 称 为 
流 (stream)， 以 便 能 使 应 用 程序 自动 组 合 驱 动 
程序 代码 流水 线 。 流 是 在 设备 驱动 程序 和 用 户 
级 进程 之 间 的 全 双 工 连接 。 它 包括 与 用 户 进程 
相连 的 流 头 (stream head)、 控 制 设备 的 驱动 程 
FR iim (driver end)、 位 于 两 者 之 间 的 若干 个 流 
模块 (stream module)。 每 个 这 些 组 件 包 含 一 
对 队列 : 读 队 列 和 写 队 列 。 图 13-14 显示 了 一 
个 流 结构 。 

模块 提供 流 处 理 的 功能 ; 它们 通过 使 用 
系统 调用 ioct1() 推送 到 流 。 例 如 ， 进 程 通 
过 流 可 以 打开 串口 设备 ， 并 且 可 以 增加 一 个 模 
块 来 处 理 输入 编辑 。 因 为 相 邻 模块 队列 之 间 可 
以 交换 消息 ， 所 以 一 个 模块 队列 可 能 会 使 邻 
近 队 列 溢出 。 为 了 防止 这 种 事情 发 生 ， 队 列 
可 能 支持 流 控制 (flow control) 。 如 没有 流 控 
制 ， 队 列 接收 所 有 消息 ， 而 且 没 有 缓冲 就 立即 发 送 到 相 邻 模块 的 队列 。 支 持 流 控制 的 队列 
缓冲 消息 ， 并 且 没有 足够 缓冲 空间 不 会 接受 消息 。 这 个 过 程 涉及 在 相 邻 队列 之 间 交 换 控 制 
消息 。 


图 13-14 流 结构 
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用 户 进 程 采用 系统 调用 write() 或 putmsg() ， 来 写 人 数据 到 设备 。 系 统 调用 write 
写 人 原始 数据 到 流 ， 而 putmsg() 允许 用 户 进 程 指定 消息 。 不 管用 户 进程 采用 何 种 系统 调 
用 ， 流 头 复制 数据 到 消息 ， 并 传 到 下 一 模块 的 队列 。 这 种 消息 复制 一 直 持 续 ， 直 到 消息 到 达 
驱动 程序 结尾 ， 最 终 到 达 设备 。 类 似 地 ， 用 户 进 程 采用 系统 调用 read() 和 getmsg() ， 来 
从 流 头 读 取 数 据 。 如 果 采 用 read() ， 则 流 头 从 相 邻 队列 得 到 消息 ， 并 将 普通 数据 ( 非 结 构 
化 字 节 流 ) 返 给 进程 。 如 果 采 用 getmsg() ， 则 将 消息 返 给 进程 。 

流 VO 是 异步 的 (或 非 阻 塞 的 )， 除 非 用 户 进 程 与 流 头 直接 通信 。 当 对 流 写 人 人 时， 假设 下 
一 个 队列 使 用 流 控制 ， 用 户 进程 会 阻塞 ， 直 到 有 空间 可 复制 消息 。 同 样 ， 当 从 流 读 取 时 ， 用 
户 进程 会 阻塞 ， 直 到 数据 可 用 。 

如 前 所 述 ， 驱 动 程序 末端 ， 与 流 头 和 模块 一 样 ， 有 读 和 写 队 列 。 然 而 ， 驱 动 程序 末端 
必须 响应 中 断 ， 例 如 当 帧 已 准备 好 以 便 网 络 读 取 时 ， 就 会 触发 中 断 。 与 流 头 不 一 样 ( 当 不 能 
复制 消息 到 下 一 个 队列 时 ， 流 头 可 能 阻塞 )， 驱 动 程序 末端 必须 处 理 所 有 传人 数据 。 驱 动 程 

602) 序 也 必须 支持 流 控制 。 然 而 ， 如 果 设 备 缓冲 已 满 ， 那么 设备 通常 取消 传人 消息 。 考 虑 一 张 
网 卡 ， 它 的 输入 缓冲 已 满 。 网 卡 必须 扔 掉 以 后 的 消息 ， 直 到 有 足够 的 缓冲 空间 来 存储 传人 
消息 。 

使 用 流 的 好 处 是 ， 它 提供 了 一 个 模块 化 和 递增 的 框架 方式 ， 来 编写 设备 驱动 程序 和 网 
络 协议 。 模 块 可 以 用 于 不 同 的 流 和 不 同 的 设备 。 例 如 ， 网 络 模块 可 以 用 于 以 太 网 卡 和 802.11 
无 线 网 卡 。 此 外 ， 流 ， 不 是 将 字符 设备 作为 非 结构 化 字 节 流 来 处 理 ， 人 允许 支持 模块 之 间 的 消 
息 边 界 和 控制 信息 。 大 多 数 UNIX 支持 流 ， 并 且 它 是 编写 协议 和 设备 驱动 程序 的 首选 方法 。 
例如 ，System V UNIX 和 Solaris 采用 流 实现 了 套 接 字 机 制 。 


13.7 TERE 


VO 是 系统 性 能 的 一 个 主要 因素 。 对 于 CPU 执行 设备 驱动 程序 代码 和 随 着 进程 阻塞 和 
解除 阻塞 而 公平 并 高 效 地 调度 ， 它 增加 了 很 大 的 负荷 。 由 此 导致 的 上 下 文 切 换 增加 了 CPU 
及 其 硬件 缓存 的 负担 。IO 也 暴露 了 内 核 的 中 断 处 理 机 制 的 任何 低 效 。 此 外 ， 对 于 控制 器 和 
物理 内 存 之 间 的 数据 复制 ， 以 及 应 用 程序 数据 空间 和 内 核 缓存 之 间 的 数据 复制 ，IO 加 重 了 
内 存 总 线 的 负荷 。 应 对 所 有 这 些 要 求 是 计算 机 架构 的 主要 关注 之 一 。 

虽然 现代 计算 机 每 秒 能 够 处 理 数 以 千 计 的 中 断 ， 但 是 中 断 处 理 仍 然 是 相对 昂贵 的 任务 。 
每 个 中 断 导 致 系统 执行 状态 改变 ， 执 行 中 断 处 理 ， 再 恢复 状态 。 如 果 忙 等 所 需 的 计算 机 周期 
并 不 多 ， 则 程序 控制 IO 比 中 断 驱 动 VO 更 为 有 效 。LIO 完成 通常 会 解锁 进程 ， 导 致 完 整 的 
上 下 文 切换 开销 。 

网 络 流量 也 能 导致 高 的 上 下 文 切 换 速率 。 例 如 ， 考 虑 从 一 台 机 器 远程 登录 到 另 一 台 机 
器 。 在 本 地 机 器 上 输入 的 字符 必须 传 到 远程 机 器 。 在 本 地 机 器 上 ， 输 入 字符 ; 引起 键盘 中 断 ; 
字符 通过 中 断 处 理 程序 传 到 设备 驱动 程序 ， 到 内 核 ， 再 到 用 户 进 程 。 用 户 进 程 执行 一 个 网 络 
IO 系统 调用 ， 以 将 该 字符 送 到 远程 机 器 。 该 字符 流入 本 地 内 核 ， 通 过 网 络 层 来 构造 网 络 分 
组 ， 再 到 网 络 设 备 驱动 程序 。 网 络 设 备 驱动 程序 传输 分 组 到 网 络 控制 器 ， 以 便 发 送 字符 并 生 
成 中 断 。 中 断 通过 内 核 传递 回来 ， 以 便 导 致 网 络 IO 系统 调用 完成 。 

这 时 ， 远 程 系统 的 网 络 硬件 收 到 数据 包 ， 并 生成 中 断 。 通 过 网 络 协议 解 包 得 到 字符 ， 并 
传 到 适当 的 网 络 守 护 进程 。 网 络 守 护 进程 确定 与 哪个 远程 登录 会 话 有 关 ， 并 传递 数据 包 到 适 

[603] 当 的 会 话 子 进程 。 在 整个 流程 中 ， 有 上 下 文 切换 和 状态 切换 (图 13-15 )。 通 常 ， 接 收 者 会 将 
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该 字符 送 回 给 发 送 者 ; 这 种 方式 会 使 工作 量 加 售 。 







































































































































































































































































图 13-15 计算 机 之 间 的 通信 


为 了 消除 服务 程序 与 内 核 之 间 的 字符 移动 的 上 下 文 切换 ，Solaris 开发 人 员 利 用 内 核 线 
程 重新 实现 了 telnet 守护 进程 。Sun 估计 ， 这 个 改进 使 得 大 服务 器 的 网 络 登录 的 最 大 数量 
从 几 百 增加 到 几 千 。 

其 他 系统 采用 单独 的 前 端 处 理 器 ( front-end processor), DEZA Ym 1/0 降低 主 CPU 的 中 
断 负担 。 例 如 ， 终 端 集中 器 (terminal concentrator) 可 以 将 数 百 个 远程 终端 多 路 复 用 到 大 型 
计算 机 的 一 个 端口 。1/O 通道 (IO channel) 是 大 型 机 和 其 他 高 端 系统 的 专用 CPU。I/O 通道 
任务 为 主 CPU 承担 IO 工作 。 这 个 想法 是 ， 通 道 保持 数据 顺利 传输 ， 而 主 CPU 仍 可 自由 处 
理 数 据 。 与 小 型 计算 机 的 设备 控制 器 和 DMA 控制 器 一 样 ， 通 道 可 以 处 理 更 多 通用 和 复杂 的 
程序 ， 这 样 通道 就 可 调控 特定 工作 负载 。 

为 了 改善 IO 效率 ， 可 以 采用 多 种 方法 : 

© 减少 上 下 文 切换 的 次 数 。 

o 减少 设备 和 应 用 程序 之 间 传 递 数据 时 的 内 存 数 据 的 复制 次 数 。 

e 通过 大 传输 、 智 能 控制 器 、 轮 询 (如 果 忙 等 可 以 最 小 化 ), 减少 中 断 频 率 。 
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e 通过 DMA 智能 控制 器 和 通道 来 为 主 CPU 承担 简单 数据 复制 ， 增 加 并 发 。 
o 将 处 理 原 语 移 到 硬件 ， 人 允许 控制 器 操作 与 CPU 和 总 线 操作 并 发 。 
e FH CPU, NETRA, WARM VO 的 性 能 ， 因 为 任何 一 处 的 过 载 都 会 引起 其 他 部 
分 的 空闲 。 
IO 设备 的 复杂 程度 差异 很 大 。 例 如 ， 鼠 标 比 较 简 单 。 鼠 标 移 动 和 按钮 点 击 转换 为 数 
字 ， 该 值 从 硬件 传递 过 来 ， 通 过 鼠标 驱动 程序 到 应 用 程序 。 相 比 之 下 ，Windows 磁盘 设备 驱 
动 提供 的 功能 是 复杂 的 。 它 不 但 管理 单个 磁盘 ， 而 且 实现 RAID 阵列 (参见 12.7 节 )。 为 此 ， 
它 将 应 用 程序 的 读 取 或 写 人 请 求 转变 为 一 组 协调 的 IO 操作 。 此 外 ， 它 实现 复杂 的 错误 处 理 
和 数据 恢复 算法 ， 并 采取 了 许多 步 又 来 优化 磁盘 性 能 。 
IO 功能 到 底 应 在 哪里 实现 呢 ? 是 设备 硬件 ， 还 是 设备 驱动 程序 ， 或 是 应 用 软件 ”有 
时 ， 我 们 观察 如 图 13-16 所 示 的 进展 。 
e 最 初 ， 我 们 在 应 用 程序 级 别 上 实现 试验 性 的 IO 算法 ， 因 为 应 用 程序 代码 灵活 ， 并 且 
应 用 程序 故障 不 太 可 能 导致 系统 上 崩溃。 再 者 ， 由 于 在 应 用 程序 层 上 开发 代码 ， 避 免 
了 因 代 码 修改 所 需 的 重新 启动 或 重新 加 载 设 备 驱 动 程序 。 然 而 ， 应 用 程序 级 的 实现 
可 能 低 效 ， 这 是 因为 上 下 文 切 换 的 开销 以 及 应 用 程序 不 能 充分 利用 内 部 内 核 数据 结 
构 和 内 核 功能 (如 高 效 内 核 消 息 传递 、 多 线程 和 锁定 等 )。 
e 当 应 用 程序 级 别 算法 证 明了 它 的 价值 时 ， 可 以 在 内 核 中 重新 实现 它 。 这 可 以 改善 性 
能 ， 但 是 因为 操作 系统 内 核 是 一 个 复杂 且 庞 大 的 软件 系统 ， 开 发 工作 更 具 挑 战 性 。 
此 外 ， 内 核实 现 必须 彻底 调试 ， 以 避免 数据 损坏 和 系统 朋 演 。 
o 高 性 能 可 以 通过 设备 或 控制 器 的 专用 硬件 实现 来 得 到 。 硬 件 实现 的 不 利 因素 包括 ， 
作 进 一 步 改 进 或 除去 故障 比较 困难 并 且 代 价 较 大 ， 开 发 时 间 增 加 了 ( 数 月 而 不 是 数 
天 )， 以 及 灵活 性 降低 了 。 例 如 ， 即 便 内 核 有 关于 负荷 的 特定 信息 以 便 改善 IO 性 能 ， 
RAID 硬件 控制 器 可 能 没有 任何 方法 以 便 内 核 改变 单独 块 的 读 写 顺 序 或 者 位 置 。 





图 13-16 设备 功能 的 进展 


13.8 小 结 


有 关 WO 的 基本 硬件 要 素 是 总 线 、 设 备 控制 器 和 设备 本 身 。 设 备 与 内 存 之 间 的 数据 移动 
工作 是 ， 由 CPU 按 程序 控制 /O 来 执行 ， 或 转交 到 DMA 控制 器 。 控 制 设备 的 内 核 模块 称 
为 设备 驱动 程序 。 应 用 程序 的 系统 调用 接口 处 理 多 种 基本 类 型 的 硬件 ， 包 括 块 设备 、 字 符 设 
备 、 内 存 映射 文件 、 网 络 套 接 字 、 可 编程 间隔 定时 器 。 系 统 调用 通常 会 使 调用 进程 阻塞 ， 但 
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是 非 阻塞 和 异步 调用 可 以 为 内 核 自 己 所 使 用 ， 也 可 以 为 不 能 等 IO 操作 完成 的 应 用 程序 所 
使 用 。 : 

内 核 的 VO 子 系统 提供 了 许多 服务 。 这 些 包 括 IO 调度 、 缓 冲 、 缓 存 、 假 脱 机 、 设 备 预 
留 以 及 错误 处 理 。 另 一 个 服务 是 名 称 转换 ， 它 可 以 在 硬件 设备 和 应 用 程序 的 符号 文件 名 称 之 
间 建 立 连 接 。 它 包括 多 级 映射 ， 以 便 映 射 文件 的 字符 串 名 称 到 特定 设备 驱动 程序 和 设备 地 
址 ， 然 后 到 IO 端口 和 总 线 控制 器 的 物理 地 址 。 这 一 映射 可 以 发 生 在 文件 系统 名 称 空间 内 ， 
如 UNIX， 也 可 以 在 独立 的 设备 名 称 空间 内 ， 如 MS-DOS, 

流 提 供 了 一 种 框架 的 实现 和 方法 ， 以 采用 模块 化 和 增 量 的 方法 来 编写 设备 驱动 程序 和 网 
络 协 议 。 通 过 流 ， 了 驱动 程序 可 以 堆 敌 ,数据 可 以 按 单 向 和 双向 来 传输 和 处 理 。 

由 于 物理 设备 和 应 用 程序 之 间 的 多 个 软件 层 ，LO 系统 调用 消耗 的 CPU 周期 较 多 。 这 些 
层 意味 着 多 种 开销 : 穿 过 内 核 保护 边界 的 上 下 文 切换 、1/O 设备 的 信号 和 中 断 的 处 理 、 内 核 
缓冲 和 应 用 程序 空间 之 间 的 数据 复制 所 需 的 CPU 和 内 存 系统 的 负载 。 


习题 

13.1 ” 当 源 自 不 同 设备 的 多 个 中 断 大 约 一 起 出 现时 ， 可 以 使 用 优先 级 方案 来 确定 中 断 服务 的 顺序 。 当 
对 不 同 中 断 赋予 优先 级 时 ， 讨 论 什么 问题 需要 加 以 考虑 。 

13.2 ”支持 内 存 映 射 VO 到 设备 控制 寄存 器 的 优点 和 缺点 是 什么 ? 

13.3 考虑 以 下 单 用 户 PC 的 IO 场景 : 
a. 用 于 图 形 用 户 界 面 的 鼠标 
b. 多 任务 操作 系统 的 磁带 驱动 器 (假定 没有 设备 预 分 配 ) 
c. 包含 用 户 文件 的 磁盘 驱动 器 
d. 与 总 线 直 接 相连 并 且 通 过 内 存 映射 IO 访问 的 显卡 
对 于 以 上 每 种 场景 ， 你 设计 的 操作 系统 如 何 采 用 缓冲 、 假 脱 机 、 缓 存 ， 或 多 种 技术 的 组 合 ? 你 
会 采用 轮 询 检 测 IO 还 是 中 断 驱动 TO ? 给 出 你 的 选择 理由 。 

13.4 ”对 于 大 多 数 的 多 道 程序 系统 ， 用 户 程序 通过 虚拟 地 址 来 访问 内 存 ， 而 操作 系统 采用 原始 物理 地 
址 来 访问 内 存 。 对 于 由 用 户 启动 的 而 由 操作 系统 执行 的 IO 操作 ， 这 种 设计 意味 着 什么 ? 

13.5 与 处 理 中 断 相关 的 各 种 性 能 开销 是 多 少 ? 

13.6 ”描述 应 该 采用 阻塞 IO 的 三 种 情况 。 描 述 应 该 采用 非 阻塞 VO 的 三 种 情况 。 为 什么 不 只 实现 非 阻 
E IO 而 让 进程 忙 等 直到 设备 就 绪 ? 

13.7 通常 ， 当 设备 IO 完成 时 ， 单 个 中 断 会 被 触发 ， 并 被 主机 处 理 器 适当 处 理 。 然 而 ， 在 某 些 情况 
下 ，1/O 完成 时 的 执行 代码 可 以 分 为 两 个 独立 的 部 分 。 第 一 部 分 在 IO 完成 后 立即 执行 ， 并 且 安 
排 第 二 个 中 断 以 便 以 后 执行 剩 下 的 代码 段 。 采 用 这 种 策略 来 设计 中 断 处 理 程序 的 目的 是 什么 ? 

13.8 有些 DMA 控制 器 支持 直接 虚拟 内 存 访问 ， 这 时 IO 操作 的 目标 指定 为 虚拟 地 址 ， 并且 DMA 执 
行 虚拟 地 址 和 物理 地 址 的 转换 。 这 种 设计 如 何 导致 DMA 设计 的 更 加 复杂 ? 提供 这 种 功能 的 优 
点 是 什么 ? 

13.9 UNIX 通过 管理 共享 内 核 数 据 结构 来 协调 内 核 1/0 组 件 ， 而 Windows 采用 内 核 TO 组 件 之 间 的 
面向 对 象 的 消息 传递 。 给 出 每 种 方法 的 三 个 优点 和 三 个 缺点 。 

13.10 采用 伪 代 码 编写 虚拟 时 钟 的 实现 ， 包 括 内 核 和 应 用 程序 的 定时 请 求 的 队列 和 管理 。 假 定 硬 件 提 
供 三 个 定时 器 通道 。 

13.11 针对 保证 流 抽象 中 的 模块 间 的 可 靠 数 据 传输 ， 讨 论 优 点 和 缺点 。 
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推荐 读物 

Vahalia ( 1996 ) 很 好 地 概述 了 UNIX 的 IO 和 网 络 。McKusick 和 Neville-Neil ( 2005 ) 详细 地 讨 
论 了 FreeBSD 使 用 的 IO 结构 和 方法 。Stevens ( 1992 ) 探讨 了 UNIX 的 各 种 进程 间 通 信和 网 络 协议 的 
使 用 和 编程 。Hart ( 2005 ) 讨论 了 Windows 编程 。 

Intel (2011 ) 为 Intel 处 理 器 提供 了 一 个 很 好 的 资源 。Rago (1993) 对 流 作 了 很 好 的 讨论 。 
Hennessy 和 Patterson ( 2012 ) 讨论 了 多 处 理 器 系统 和 缓存 一 致 性 等 问题 。 
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保护 与 安全 





保护 机 制 通过 限制 用 户 许可 的 文件 访问 类 型 控制 访问 系统 。 此 外 ， 
保护 机 制 必须 确保 只 有 得 到 操作 系统 恰当 授权 的 进程 才能 操作 内 存 段 、 
CPU 和 其 他 资源 。 

保护 机 制 控制 程序 、 进 程 或 用 户 访问 计算 机 系统 的 资源 。 这 种 机 制 
必须 提供 指定 需要 施加 的 控制 以 及 强制 执行 它们 的 方式 的 手段 。 

安全 机 制 确保 系统 用 户 的 身份 认证 ,保护 系统 的 物理 资源 和 存储 信 
息 (包括 数据 和 代码 ) 的 完整 性 。 安 全 系统 防止 未 授权 的 访问 、 数 据 的 恶 
意 破坏 或 更 改 以 及 不 一 致 的 意外 引入 等 。 
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Operating System Concepts, Ninth Edition 


系统 保护 


对 操作 系统 的 进程 必须 加 以 保护 ， 以 便 免 受 其 他 进程 活动 的 干扰 。 为 了 提供 这 种 保护 ， 
我 们 可 以 采用 多 种 机 制 来 确保 只 有 获得 操作 系统 恰当 授权 的 进程 才能 操作 文件 、 内 存 段 、 
CPU 和 其 他 系统 资源 。 

保护 作为 一 种 机 制 ， 用 于 控制 程序 、 进 程 或 用 户 访问 计算 机 系统 定义 的 资源 。 这 种 机 制 
必须 提供 手段 ， 来 指定 施加 的 控制 以 及 采取 的 强制 方式 。 安 全 有 别 于 保护 ， 安 全 是 保留 系统 
和 数据 的 完整 性 的 信心 度量 。 本 章 专注 于 保护 。 安 全 保障 是 个 更 加 广泛 的 话题 ， 第 15 章 会 
讨论 它 。 

本 章 目标 

© 讨论 现代 计算 机 系统 的 保护 的 目的 与 原则 。 

o 解释 保护 域 和 访问 矩阵 如 何 用 于 指定 进程 可 以 访问 的 资源 。 

© 分 析 基 于 能 力 的 和 基于 语言 的 保护 系统 。 


14.1 保护 目标 


随 着 计算 机 系统 日 益 复杂 并 且 应 用 日 益 广泛 ， 保 护 系 统 完 整 性 的 需求 也 随 之 增长 。 保 
护 最 初 是 多 道 程序 操作 系统 的 附属 产物 ， 以 致 不 可 信用 户 可 以 安全 地 共享 公共 逻辑 命名 空间 
(如 文件 目录 ) 或 者 共享 公共 物理 命名 空间 (如 内 存 )。 现 代 保 护 概念 已 经 发 展 ， 以 便 提高 所 
有 使 用 共享 资源 的 任何 复杂 系统 的 可 靠 性 。 

我 们 需要 提供 保护 的 原因 有 很 多 。 最 显而易见 的 是 ， 需 要 防止 用 户 有 意 地 、 亚 意 地 违反 
访问 限制 。 然 而 ， 更 为 重要 的 是 需要 确保 : 系统 的 活动 程序 组 件 按照 规定 策略 来 使 用 系统 资 
源 。 这 种 要 求 是 可 靠 系统 所 必需 的 。 

通过 检测 组 件 子 系统 之 间接 口 的 潜在 错误 ,保护 可 以 提高 可 靠 性 。 接 口 错误 的 早期 检测 
通常 可 以 防止 , 已 经 发 生 故 障 的 子 系统 影响 其 他 健康 子 系统 。 男 外 ， 未 受 保护 的 资源 无 法 抵 
御 未 经 授权 或 不 合格 用 户 的 使 用 (或 误 用 )。 面 向 保护 的 系统 提供 手段 ， 以 便 区 分 授权 和 未 
经 授权 的 使 用 。 

计算 机 系统 的 保护 角色 是 为 实施 资源 使 用 的 控制 策略 提供 一 种 机 制 。 这 些 策略 的 建立 可 
有 多 种 方式 。 有 的 在 系统 设计 中 是 固定 的 ， 而 其 他 的 在 系统 管理 中 可 以 定制 。 还 有 的 可 由 单 
个 用 户 来 定义 ， 以 保护 自己 的 文件 和 程序 。 系 统 保护 必须 灵活 ， 从 而 实施 多 种 策略 。 

资源 使 用 策略 可 能 因应 用 而 不 同 ， 而 且 可 能 随 着 时 间 推 移 而 改变 。 由 于 这 些 原 因 ， 保 护 
不 再 只 是 操作 系统 的 设计 人 员 才 要 关心 的 。 应 用 程序 员 也 需要 使 用 保护 机 制 ， 保 护 应 用 子 系 
统 创建 和 支持 的 资源 ， 防 止 误 用 它们 。 本 章 讨论 操作 系统 需要 提供 的 保护 机 制 ， 但 应 用 设计 
人 员 也 可 采用 它们 来 设计 自己 的 保护 软件 。 

请 注意 ， 机 制 与 策略 不 同 。 机 制 决 定 如 何 做 ,策略 决定 做 什么 。 对 于 灵活 性 ， 策 略 与 机 
制 的 分 离 很 重要 。 策 略 可 能 随 着 地 点 或 时 间 的 不 同 而 不 同 。 在 最 坏 情况 下 ， 每 次 策略 的 改变 
都 可 能 要 求 底层 机 制 的 改变 。 使 用 通用 机 制 能 够 避免 这 种 情况 。 
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14.2 保护 原则 


通常 ， 整 个 项 目 如 操作 系统 设计 ， 可 以 采用 一 个 指导 原则 。 采 用 这 个 原则 简化 设计 决 
策 ， 并 且 保 持 系统 一 致 和 易于 理解 。 一 个 经 过 时 间 检 验 的 重要 的 保护 指导 原则 是 最 低 特 权 原 
Ml ( principle of least privilege)， 它 规定 了 程序 、 用 户 甚至 系统 只 能 拥有 足够 特权 以 便 执行 
任务 。 

考虑 一 个 带 有 密 钥 的 保安 员 的 比喻 。 如 果 这 个 密 钥 允 许 保安 员 进 入 他 所 守卫 的 公共 区 
域 ， 则 滥用 钥匙 造成 的 危害 最 小 。 然 而 ， 如 果 密 钥 允 许 访问 所 有 区 域 ， 则 密 钥 的 丢失 、 偷 
穷 、 误 用 、 复 制 或 其 他 等 会 带 来 更 大 危害 。 

遵循 最 低 特 权 原 则 的 操作 系统 实现 它 的 特征 、 程 序 、 系 统 调 用 和 数据 结构 ， 以 便 组 件 的 
故障 或 妥协 做 到 最 小 伤害 并 且 允 许 最 小 伤害 。 例 如 ， 系 统 守护 进程 的 缓冲 区 溢出 可 能 导致 守 
护 进 程 故障 ,但 是 不 应 允许 守护 进程 堆栈 中 的 执行 代码 使 得 远程 用 户 获得 最 大 权限 并 访问 整 
个 系统 (现在 太 常 发 生 了 )。 

这 样 的 操作 系统 也 提供 系统 调用 和 服务 ， 以 便 允 许 采 用 细 粒 度 的 访问 控制 来 编写 应 用 程 
序 。 它 提供 机 制 : 在 需要 时 启用 权限 ; 在 不 需要 时 禁用 权限 。 所 有 特权 函数 访问 的 审计 跟踪 
的 创建 也 有 好 处 。 审 计 跟 踪 允 许 程 序 员 、 系 统管 理 员 或 执法 人 员 ， 来 跟踪 系统 所 有 的 保护 和 
安全 活动 。 

采用 最 低 特权 原则 管理 用 户 包 括 : 为 每 个 用 户 ， 仅 按 所 需 权 限 来 创建 单独 账户 。 例 如 ， 
需要 在 系统 上 安装 磁带 和 备份 文件 的 操作 员 ， 仅 仅 访问 那些 完成 这 个 任务 所 需 的 命令 和 文 
件 。 有 些 系统 通过 基于 角色 的 访问 控制 (Role-Based Access Control，RBAC)， 以 便 提 供 这 
种 功能 。 

采用 最 低 特权 原则 的 计算 机 可 以 限于 运行 特定 服务 、 通 过 特定 服务 访问 特定 远程 主机 以 
及 在 特定 时 间 里 做 这 些 事 。 通 常 ， 通 过 启用 或 禁用 每 个 服务 和 通过 访问 控制 列表 (如 10.6.2 
PA 14.6 节 所 述 )， 实 现 这 些 限制 。 

最 低 特 权 原 则 有 助 于 生成 更 为 安全 的 计算 环境 ， 然 而 事实 常常 并 非 如 此 。 例 如 ，Win- 
dows 2000 内 核 具 有 复杂 的 保护 方案 ， 但 是 仍 有 许多 安全 漏洞 。 相 比 之 下 ，Solaris 可 认为 相 
对 安全 ， 尽 管 它 是 UNIX 的 一 个 变种 ， 而 且 UNIX 的 以 前 设计 几乎 没有 考虑 保护 。 这 个 差异 
的 原因 之 一 可 能 在 于 ，Windows 2000 比 Solaris 具有 更 多 代码 和 更 多 服务 ， 因 此 需要 更 多 的 
保护 和 安全 。 另 一 原因 可 能 是 ，Windows 2000 的 保护 方案 是 不 完整 的 ， 或 者 保护 了 操作 系 
统 错误 的 方面 而 使 其 他 区 域 易 受 攻击 。 


14.3 ”保护 域 


每 个 计算 机 系统 是 进程 和 对 象 的 一 组 集合 。 对 象 ( object) 分 为 硬件 对 象 (hardware 
object) (如 CPU 、 内 存 段 、 打 印 机 、 磁 盘 和 磁带 驱动 器 ) 和 软件 对 象 (software object) (如 文 
件 、 程 序 和 信号 量 )。 每 个 对 象 都 有 一 个 唯一 名 称 ， 以 便 区 别 它 与 系统 内 的 所 有 其 他 对 象 ; 
而 且 每 个 只 能 通过 明确 定义 的 、 有 意义 的 操作 来 访问 。 对 象 本 质 上 属于 抽象 数据 类 型 。 

可 以 执行 的 操作 可 能 取决 于 对 象 。 例 如 ，CPU 只 能 执行 。 内 存 段 可 以 读 和 写 ， 而 CD- 
ROM 或 DVD-ROM 只 可 以 读 。 磁 带 驱动 器 可 以 读 、 写 和 重 绕 。 数 据 文件 可 以 创建 、 打 开 、 
读 取 、 写 入 、 关 闭 和 删除 ; 程序 文件 可 以 读 取 、 写 人 、 执 行 和 删除 。 

进程 只 应 允许 访问 获得 了 授权 的 资源 。 此 外 ， 无 论 何 时 ， 进 程 只 能 访问 为 完成 任务 而 
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获得 的 那些 资源 。 第 二 个 要 求 ， 通 常 称 为 需要 知道 原则 ( need-to-know principle)， 可 以 有 效 
限制 出 错 进程 造成 的 系统 伤害 。 例 如 ， 当 进程 p 调用 过 程 40 时 ， 该 过 程 只 应 允许 访问 它 自 
己 的 变量 和 传递 给 它 的 形式 参数 ; 它 应 当 不 能 访问 进程 p 的 所 有 变量 。 同 样 ， 考 虑 进程 p K 
用 编译 器 来 编译 特定 文件 的 情况 。 编 译 器 应 该 不 能 随意 访问 所 有 文件 ， 而 只 应 访问 明确 定义 
的 、 与 编译 有 关 的 文件 子 集 (如 源 文件 、 列 表 文件 等 )。 相 反 ， 编译 器 可 能 有 私有 文件 以 用 
于 统计 或 优化 的 目的 ， 进 程 p 应 当 不 能 访问 这 些 文件 。 需 要 知道 原则 类 似 于 14.2 节 所 述 的 
最 低 特权 原则 ， 保 护 目 的 都 是 尽 可 能 地 减少 可 能 违反 安全 的 风险 。 


14.3.1 域 结构 


为 了 实施 刚才 描述 的 方案 ， 进 程 在 保护 域 (protection domain) 内 执行 ， 该 保护 域 指 
定 了 进程 可 以 访问 的 资源 。 每 个 域 定义 了 : 一 组 对 象 和 可 以 对 每 个 对 象 调用 的 操作 类 型 。 
对 对 象 执行 操作 的 能 力 为 访问 权限 (access right)。 每 个 域 为 访问 权限 的 一 组 集合 ， 每 个 
权限 为 一 个 有 序 对 〈 object-name, rights-set )。 例 如 ， 如 果 域 D 有 访问 权限 (文件 
F，{ 读 ， 写 }) 则 域 D 内 的 执行 进程 可 以 读 和 写 文件 Ff。 然而 ， 它 不 能 对 文件 FF 执行 任何 
其 他 操作 。 

域 可 以 共享 访问 权限 。 例 如 ， 图 14-1 有 三 个 保护 域 : Di, Di M Ds WIR 〈 O04, { FT 
ED y) FA D2 和 D3 共享; 这 意味 着 ， 在 这 两 个 域 中 执行 的 进程 可 以 打印 对 象 04。 注 意 : 进程 
必须 在 域 Di 中 执行 才能 读 取 和 写 人 对 象 O,， 而 只 有 域 D; 内 的 进程 才 可 执行 对 象 Oo 





图 14-1 具有 三 个 保护 域 的 系统 


如 果 进 程 可 用 的 资源 集合 在 进程 的 生命 周期 中 是 固定 的 ， 则 进程 和 域 的 关联 可 以 是 静态 
AY (static), APRA BASH (dynamic)。 正 如 可 以 预期 的 ， 创 建 动态 保护 域 要 比 创建 静态 
保护 域 更 加 复杂 。 

如 果 进 程 和 域 之 间 的 关联 是 固定 的 ， 而 且 我 们 想 要 坚持 需要 知道 原则 ， 则 必须 有 一 个 可 
用 机 制 来 修改 域 的 内 容 。 这 个 原因 源 自 这 样 的 事实 : 进程 的 执行 可 以 分 为 两 个 阶段 ， 例 如 一 
个 阶段 需要 读 访问 ， 而 另 一 个 阶段 需要 写 访 问 。 如 果 域 是 静态 的 ， 则 必须 定义 域 来 包括 读 和 
写 的 访问 。 然 而 ， 这 种 安排 为 两 个 阶段 提供 了 过 多 的 权限 ， 因 为 只 需 写 权限 的 阶段 还 拥有 读 
权限 ; 反之 亦 然 。 因 此 ， 这 违反 了 需要 知道 原则 。 我 们 必须 允许 修改 域 的 内 容 ， 这 样 域 始终 
反映 了 所 需 的 最 低 访 问 权 限 。 

如 果 关 联 是 动态 的 ， 则 可 以 采用 一 种 机 制 来 允许 域 切换 (domain switching)， 以 便 能 够 
让 进程 从 一 个 域 切换 到 另 一 个 域 。 我 们 还 可 能 希望 允许 修改 域 的 内 容 。 如 果 无 法 更 改 域 的 内 
容 ， 则 可 以 通过 以 下 途径 达到 同样 的 效果 : 根据 修改 后 的 内 容 创 建 一 个 新 域 ， 然 后 在 需要 更 
改 域 的 内 容 时 切换 到 这 个 新 域 。 

域 的 实现 方式 可 有 多 种 : 

© 每 个 用 户 可 以 是 个 域 。 在 这 种 情况 下 ， 可 以 访问 的 对 象 集合 取决 于 用 户 身份 。 当 用 

户 改 变 时 (通常 当 一 个 用 户 注销 而 男 一 个 用 户 登 录 时 )， 发 生 域 切换 。 


RIF RARP 419 


o 每 个 进程 可 以 是 一 个 域 。 在 这 种 情况 下 ， 可 以 访问 的 对 象 集合 取决 于 进程 身份 。 当 
一 个 进程 发 送 消息 到 男 一 个 进程 ， 然 后 等 待 响 应 时 ， 发 生 域 切换 。 
e 每 个 过 程 可 以 是 一 个 域 。 在 这 种 情况 下 ， 可 以 访问 的 对 象 集合 对 应 于 过 程 内 定义 的 
局 部 变量 。 当 进行 过 程 调用 时 ， 发 生 域 切换 。 
14.4 节 详 细 讨论 域 切换 。 
考虑 一 下 操作 系统 执行 的 标准 双 模 式 (监控 -用户 模式 ) 模型 。 当 进程 执行 在 监控 模式 
下 时 ， 它 可 以 执行 特权 指令 ， 从 而 获得 计算 机 系统 的 完全 控制 。 相 反 ， 当 进程 执行 在 用 户 模 
式 下 时 ， 它 只 能 调用 非特 权 指 令 。 因 此 ， 它 只 能 执行 在 预定 义 的 内 存 空间 中 。 这 两 种 模式 保 
护 操作 系统 (在 监控 域内 执行 )， 使 其 免 受 用 户 进程 (在 用 户 域内 执行 ) 的 干扰 。 对 于 多 道 程 
序 操作 系统 ， 两 个 保护 域 是 不 够 的 ， 因 为 用 户 之 间 也 要 互相 保护 。 因 此 ， 需 要 更 加 精细 的 方 
案 。 通 过 分 析 两 个 极 具 影 响 的 操作 系统 (UNIX 和 MULTICS)， 我 们 举例 说 明 如 何 实现 这 些 
概念 的 方案 。 


14.3.2 例子 : UNIX 


对 于 UNIX 操作 系统 ， 域 与 用 户 关 联 。 切 换 域 对 应 于 暂时 更 改 用 户 身份 。 这 种 更 改 通 
过 文件 系统 来 实现 。 每 个 文件 都 关联 着 所 有 者 身份 和 域 位 〈 称 为 setuid 位 (setuid bit)). 4 
setuid 位 打开 ， 并 且 用 户 执行 文件 时 ，userID 设置 为 文件 所 有 者 的 身份 。 然 而 ， 当 该 位 关闭 
时 ， 不 会 更 改 userID。 例 如 ， 当 用 户 A (Bl userID 为 A 的 用 户 ) 开始 执行 属于 B 的 一 个 文 
件 时 ， 如 果 此 时 B 的 关联 域 位 是 关闭 的 ， 则 该 进程 的 userID 会 被 设置 成 A; 如 果 它 的 setuid 
位 是 打开 的 ， 则 该 进程 的 userID 会 被 设置 成 文件 的 所 有 者 : B。 当 进程 退出 时 ， 这 个 userID 
的 临时 更 改 就 结束 了 。 

对 于 采用 userID 来 定义 域 的 操作 系统 ， 其 他 方法 也 可 用 于 更 改 域 ， 因 为 几乎 所 有 系统 
都 要 提供 这 么 一 种 机 制 。 当 需要 为 普通 用 户 人 员 提 供 其 他 特权 功能 时 ， 采 用 这 种 机 制 。 例 
如 ， 可 能 希望 允许 用 户 访 问 网 络 ， 而 无 需 编写 自己 的 网 络 程序 。 在 这 种 情形 下 ， 对 于 UNIX 
系统 ， 网 络 程序 的 设置 用 户 标识 位 可 以 设置 打开 ， 当 程序 运行 时 就 会 更 改 userID。userID 会 
变 成 拥有 网 络 访问 特权 的 用 户 (如 root， 最 强大 的 userID)。 这 种 方法 的 一 个 问题 是 ， 如 果 
用 户 试图 采用 userID root 和 设置 用 户 身份 打开 来 创建 文件 ， 则 该 用 户 可 以 成 为 root， 并 执行 
系统 上 的 所 有 一 切 。 附 录 A 更 深入 地 讨论 设置 用 户 身份 (setuid) 这 个 机 制 。 

一 些 其 他 操作 系统 的 替代 方法 是 ， 将 特权 程序 放 到 特殊 目录 。 当 运行 这 个 目录 的 任意 一 
个 程序 时 ， 操 作 系 统 设计 成 更 改 它 的 ID 为 root 或 目录 所 有 者 的 用 户 身份 。 这 消除 了 设置 用 
户 身份 的 一 个 安全 问题 : 人 侵 者 创建 程序 ， 操 纵 setuid 功能 ， 隐 藏 系统 程序 (采用 隐藏 文件 
和 目录 名 的 方式 )， 以 备 后 续 使 用 。 然 而 ,与 UNIX 相 比 ， 这 个 方法 缺少 灵活 性 。 

系统 只 要 简单 地 不 允许 更 改 userID ， 就 会 变 得 更 具 约束 力 ， 也 更 加 安全 。 在 这 种 情况 
下 ， 必 须 采 用 特殊 技术 以 便 允 许 用 户 访问 特权 功能 。 例 如 ， 守 护 进程 (daemon process) 可 
以 在 引导 时 启动 ， 并 按 特殊 userID 来 运行 。 然 后 ， 用 户 运行 一 个 单独 的 程序 ， 当 需要 采用 
这 些 功能 时 就 发 送 请 求 到 守护 进程 。 操 作 系统 TOPS-20 采用 这 种 方法 。 

对 于 任何 这 些 系 统 ， 编 写 特权 程序 必须 分 外 小 心 。 任 何 疏 忽 大 意 可 以 导致 系统 保护 的 完 
全 丧失 。 一 般 来 说 ， 这 些 程序 是 企图 人 侵 系统 的 用 户 首先 需要 攻击 的 对 象 。 遗 憾 的 是 ， 攻 击 
者 经 常 是 成 功 的 。 例 如 ， 由 于 设置 用 户 身 份 (setuid) 特征 ， 许 多 UNIX 系统 安全 已 经 破坏 。 
第 15 章 讨论 安全 问题 。 
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14.3.3 BIF: MULTICS 


对 于 MULTICS 系统 ， 保 护 域 组 织 成 分 层 的 
环形 结构 。 每 个 环 对 应 一 个 单独 的 域 (图 14-2 ) 。 
这 些 环 用 从 0 ~ 7 的 数字 来 编号 。 设 D 和 也 为 
任意 的 两 个 域 环 。 如 果 j <i, M D Æ D; 的 一 个 
子 集 。 也 就 是 说 ， 执 行 在 D; 中 的 进程 比 执行 在 
Di; 中 的 进程 ,拥有 更 多 特权 。 执 行 在 D, 中 的 进 
程 拥 有 最 多 特权 。 如 果 只 存在 两 个 环 ， 则 这 个 
方案 等 价 于 监控 -用户 执行 模式 ， 其 中 监控 模 
式 对 应 于 D,， 而 用 户 模式 对 应 于 Do 

MULTICS 具有 分 段 地 址 空间 ; 每 个 段 是 一 
个 文件 ， 而 每 个 段 关 联 着 一 个 环 。 段 描述 包含 
一 个 条 目 ， 以 标识 环 编号 。 此 外 ， 它 包括 三 个 访问 位 ， 以 控制 读 、 写 和 执行 。 段 与 环 的 关联 
是 一 个 策略 决定 ， 这 里 不 涉及 这 部 分 内 容 。 

每 个 进程 关联 一 个 计数 器 current-ring-number (当前 环 编号 )， 用 于 标识 进程 正在 执 
行 的 环 。 当 进程 执行 在 环 i 中 时 ， 它 不 可 以 访问 与 环 j 关联 的 段 (j < i)。 它 可 以 访问 与 环 
关联 的 段 (k> i)。 然 而 ,访问 类 型 由 与 段 关联 的 访问 位 来 限制 。 

在 MULTICS 下 ， 当 进程 通过 调用 不 同 环 的 过 程 从 一 个 环 切换 到 另 一 个 环 时 ， 就 会 发 生 
域 切换 。 显 然 ， 这 种 切换 必须 在 受 挖 方式 下 完成 ; 否则， 进程 可 以 在 环 0 中 开始 执行 ， 而 无 
法 提供 任何 保护 。 为 了 人 允许 受 控 的 域 切换 ， 我 们 修改 段 描述 符 的 环 的 字段 ， 包 括 以 下 内 容 : 

e 访问 对 : 一 对 整数 bl 和 4b2, A bi < b2。 

e 限制 : #453, H 63> 52, 

e 门 列 表 : 标识 可 能 调用 段 的 入 口 点 (或 门 (gate) ) 。 

如 果 执 行 在 环 i 中 的 进程 调用 具有 访问 对 (b1, b2) 的 过 程 ， 则 当 b1 < i< 4b2 时 ， 人 允许 调 
用 ,上 且 进 程 的 当前 环 号 保持 为 i。 否则 ,会 陷入 操作 系统 ， 这 种 情况 处 理 如 下 : 
e 如 果 i< 4b1， 则 允许 调用 发 生 ， 因 为 我 们 迁移 到 具有 更 少 特权 的 环 (或 域 )。 然 而 ， 
如 果 传 递 参数 涉及 编号 更 低 环 内 的 段 ( 即 调用 过 程 不 可 访问 的 段 )， 则 必须 复制 这 些 
段 到 调用 过 程 可 以 访问 的 区 域 。 
e 如 果 i> b2, WHA 4b3 大 于 或 等 于 i 时 才 允 许 调用 ， 并且 调用 被 定向 到 门 列表 的 指定 
和 人 入口 点 之 一 。 这 种 方案 允许 具有 有 限 访 问 权 限 的 进程 ,来 调用 具有 更 多 访问 权限 的 
更 低 环 的 过 程 ， 但 是 只 能 按 仔细 控制 的 方式 来 进行 。 

环 (或 分 层 ) 结构 的 主要 缺点 是 ， 它 不 允许 我 们 执行 需要 知道 原则 。 特 别 地 ， 如 果 一 个 
对 象 必须 在 域 记 中 访问 而 在 域 忆 中 不 可 以 访问 ， 则 必须 有 .jj < 但 是 ， 这 个 要 求 意味 着 ， 
D, 中 可 访问 的 每 个 段 也 是 在 Dj 中 可 以 访问 的 。 

与 现代 操作 系统 相 比 ，MULTICS 的 保护 系统 通常 更 复杂 ， 并 且 效 率 更 低 。 如 果 保 护 干 
扰 了 系统 的 易 用 性 或 明显 降低 了 系统 性 能 ， 则 必须 仔细 平衡 系统 的 使 用 与 目的 。 例 如 ,我们 
有 一 台 具 有 复杂 保护 系统 的 计算 机 ， 学 校 用 来 处 理学 生成 绩 ， 而 学 生 用 来 完成 作业 。 相 似 的 
保护 系统 并 不 适用 数值 计算 的 计算 机 ， 这 里 性 能 是 至 关 重 要 的 。 我 们 倾向 于 分 离 保护 的 机 制 
和 策略 ， 人 允许 同一 系统 根据 用 户 需 求 ， 来 采用 或 繁 或 简 的 保护 。 为 了 分 离 机 制 与 策略 ， 我 们 
需要 一 个 更 为 通用 的 保护 模型 。 





图 14-2 MULTICS 的 环 结构 
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14.4 访问 和 矩阵 


我 们 的 通用 保护 模型 可 以 抽象 为 一 个 矩阵 ， 称 为 访问 矩阵 (access matrix)。 访 问 和 矩阵 的 
行 表 示 域 ， 列 表示 对 象 。 每 个 矩阵 条 目 包 括 访 问 权 限 的 一 个 集合 。 因 为 列 明 确定 义 对 象 ， 我 
们 可 以 从 访问 权限 中 省 略 对 象 名 称 。 访 问 条 目 access(i, j) EX T HAITE D: 中 的 进程 可 以 
针对 对 象 O; 调用 的 操作 集合 。 

为 了 说 明 这 些 概念 ， 我 们 考虑 如 图 14-3 所 示 的 访问 矩阵。 有 4 个 域 和 4 个 对 象 ， 即 3 
个 文件 (Fi, Fo, Fs) 和 1 台 激光 打印 机 。 执 行 在 域 Di 中 的 进程 可 以 读 取 文件 Fi A Fso PAT 
在 域 D4 中 的 进程 与 执行 在 域 Di 中 的 进程 具有 同样 特权 ; 但 是 男 外 它 也 可 以 写 入 文件 F 和 [618 
已 。 激 光 打 印 机 只 能 由 执行 在 域 Da 中 的 进程 来 访问 。 





图 14-3 ”访问 和 矩阵 


访问 矩阵 方案 为 我 们 提供 一 种 机 制 ， 以 指定 各 种 策略 。 这 个 机 制 包括 : 实现 访问 矩阵 
和 确保 保持 所 述 语 义 属性 。 更 具体 地 说 ， 我 们 必须 确保 ， 执 行 在 域 D; 中 的 进程 只 能 访问 行 i 
指定 的 对 象 ， 并 且 只 能 由 访问 矩阵 条 目 所 允许 的 。 

访问 矩阵 可 以 实现 保护 相关 的 策略 决策 。 这 些 策略 决策 涉及 ， 条 目 Gj) 应 当 包括 哪些 
权限 。 我 们 还 必须 决定 每 个 进程 执行 的 域 。 这 条 最 后 策略 通常 由 操作 系统 来 决定 。 

用 户 通常 决定 访问 和 矩阵 条 目的 内 容 。 当 用 户 创建 新 对 象 0; 时 ， 增 加 列 0) 到 访问 矩阵 ， 
而 列 O, 具有 创建 者 指定 的 适当 初始 化 条 目 。 根 据 需要 ， 用 户 可 以 决定 ， 列 7 的 某 些 条 目的 
某 些 权限 和 其 他 条 目的 其 他 权限 。 

访问 和 矩阵 提供 适当 机 制 ， 为 进程 和 域 之 间 的 静态 和 动态 关联 定义 和 实现 严格 控制 。 当 切 
换 一 个 进程 从 一 个 域 到 另 一 个 域 时 ， 我 们 为 (域内 ) 对 象 执行 操作 switch (切换 )。 通 过 采用 
访问 矩阵 对 象 的 域 ， 可 以 控制 域 切换 。 类 似 地 ， 当 更 改 访问 矩阵 的 内 容 时 ， 执 行 操作 对 象 : Vi 
问 和 矩阵 。 再 者 ， 通 过 将 访问 矩阵 本 身 作 为 一 个 对 象 ， 我 们 可 以 控制 这 些 改 变 。 实 际 上 ， 因 为 访 
问 和 矩阵 的 每 个 条 目 可 以 单独 修改 ， 我 们 必须 考虑 访问 和 矩阵 的 每 个 条 目 按 对 象 来 保护 。 现 在 ， 我 
们 只 需 考 虑 这 些 新 对 象 〈 域 和 访问 矩阵 ) 的 操作 ， 并 且 决 定 我 们 想 要 进程 如 何 执行 这 些 操作 。 

进程 应 该 能 够 从 一 个 域 切换 到 另 一 个 域 。 从 域 D 到 域 D 的 切换 是 允许 的 ， 当 上 且 仅 当 访 
间 权 限 switch E access(i, /). Alt, TEA 14-4 中 ， 执 行 在 域 D, 中 的 进程 可 以 切换 到 域 D， [619] 
或 域 D,。 域 D, 的 进程 可 以 切换 到 D,， 而 域 D, 的 进程 可 以 切换 到 D o 


对 象 


PEE, 
| D] 
人 Da 





图 14-4 将 域 作 为 对 象 的 图 14-3 的 访问 和 矩阵 
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访问 矩阵 条 目 内 容 的 受 控 更 改 需要 三 个 附加 操作 : 复制 (copy)、 所 有 者 (owner) 以 及 
控制 (control)。 下 面 ， 我 们 分 析 这 些 操作 。 

复制 访问 和 矩阵 的 一 个 域 (或 行 ) 的 访问 权限 到 另外 一 个 的 能 力 ， 通 过 访问 权限 后 面 附加 
的 星 号 “*” 来 标记 。 复 制 权 限 允 许 在 列 ( 即 对 象 ) 内 ， 复 制 访问 权限 。 例 如 ， 在 图 14-5a 
中 ， 执 行 在 域 D, 中 的 进程 可 以 复制 读 操作 到 与 文件 F, 关联 的 任何 条 目 。 因 此 ， 图 14-5a 的 
访问 矩阵 可 以 改 成 如 图 14-5b 所 示 的 访问 矩阵 。 





图 14-5 具有 复制 权限 的 访问 矩阵 
这 种 方案 具有 两 个 附加 变形 : 
© 权限 从 access(i, j) 复制 到 access(k, j))， 然 后 权限 从 access(i, /) 中 删除 。 这 种 行为 不 是 
权限 复制 ， 而 是 权限 迁移 。 
e 可 以 限制 复制 权限 的 传播 。 也 就 是 说 ， 当 权限 R 从 access(i, j) SHE access(k, j), 
只 是 创建 了 权限 R (而 不 是 R )。 执 行 在 域 Di 中 的 进程 不 能 进一步 复制 权限 Ro 

系统 可 以 只 选择 这 三 种 复制 权限 中 的 一 种 ， 也 可 以 提供 所 有 3 种 并 分 别 标识 为 : 复制 
(copy), x£% (transfer) 及 有 限 复制 (limited copy)。 

我 们 还 需 一 种 机 制 ， 以 便 增加 新 的 权限 和 取消 某 些 权限 。 所 有 者 权限 控制 这 些 操作 。 如 
Æ access(i, j) 包括 所 有 者 权限 ， 则 执行 在 域 D; 中 的 进程 可 以 增加 和 删除 列 j 的 任何 条 目的 
任何 权限 。 例 如 ， 在 图 14-6a F, BRD 为 FF 的 所 有 者 并且 可 以 增加 和 删除 列 Fi 的 任何 
AXAR. M, D, 为 和 FF 的 所 有 者 ， 因 此 可 以 增加 和 删除 这 两 列 的 任何 有 效 权限 。 
因此 ， 图 14-6a 的 访问 矩阵 可 以 改 成 如 图 14-6b 所 示 的 访问 矩阵 。 





图 14-6 具有 所 有 者 权限 的 访问 和 矩阵 
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复制 与 所 有 者 权限 允许 进程 修改 列 内 的 条 目 。 还 需要 一 种 机 制 来 修改 行内 的 条 目 。 控 制 


权限 只 能 用 于 域 对 象 。 如 果 access(i, /) 包含 控制 权限 ， 则 执行 在 域 D; 内 的 进程 可 以 删除 行 j 


内 的 任何 访问 权限 。 例 如 ， 假 设 图 14-4 中 的 access(D,, D) 包含 控制 权限 。 那 么 ， 执 行 在 域 
D, 内 的 进程 可 以 修改 域 D,， 如 图 14-7 所 示 。 

复制 与 所 有 者 权限 为 我 们 提供 了 一 种 机 制 ， 来 限制 访问 权限 的 传播 。 但是， 它们 并 没有 
提供 适当 工具 ， 来 防止 信息 的 传播 (或 泄露 )。 保 证 对 象 最 初 持 有 信息 不 能 移 到 执行 环境 之 
外 的 问题 称 为 禁闭 问题 (confinement problem)。 这 个 问题 一 般 是 不 可 解 的 (参见 本 章 最 后 的 
推荐 读物 )。 

域 与 访问 矩阵 的 这 些 操作 本 身 并 不 重要 ， 但 是 它们 说 明了 访问 矩阵 模型 能 够 实现 和 控制 
动态 保护 的 需求 。 在 访问 矩阵 模型 中 ， 新 对 象 和 新 域 可 以 动态 创建 与 增加 。 然 而 ， 这 里 只 讨 
论 了 基本 机 制 。 对 于 哪些 域 可 以 通过 哪些 方式 访问 哪些 对 象 ， 系 统 设计 人 员 和 用 户 必须 做 出 
决策 。 
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图 14-7 图 14-4 的 修改 访问 矩阵 


14.5 ”访问 矩阵 的 实现 

如 何 有 效 实现 访问 矩阵 ? 一 般 来 说 ， 这 种 矩阵 会 是 稀 朴 的 ; 也 就 是 说 ， 大 多 数 条 目 都 是 
空 的 。 尽 管 有 些 数据 结构 技术 可 以 表示 稀 朴 矩阵 ， 但 是 由 于 使 用 保护 功能 ， 它 们 并 不 特别 适 
合 这 种 应 用 。 这 里 ， 我 们 首先 讨论 访问 矩阵 的 几 种 实现 方法 ， 然 后 进行 比较 。 


14.5.1 全 局 表 


访问 矩阵 的 最 简单 实现 采用 一 个 全 局 表 ， 它 包括 一 组 有 序 三 元 组 ( domain， object, 
rights-set )。 当 在 域 D; 内 对 对 象 O) 进行 操作 M 时 ， 就 在 全 局 表 中 查找 三 元 组 (D, O;, 
Ri), ME Rk。 如 果 找 到 这 个 三 元 组 ， 则 操作 允许 继续 ; 否则 ， 就 会 引起 一 个 异常 或 者 错误 。 

这 种 实现 有 些 缺 点 。 这 种 表 通 常 很 大 ， 因 此 不 能 保存 在 内 存 中 ， 所 以 需要 额外 的 VO. 
通常 采用 虚拟 内 存 技术 管理 这 种 表 。 此 外 ， 很 难 利用 对 象 和 域 的 特殊 分 组 的 优点 。 例 如 ， 如 
果 每 个 用 户 可 以 读 取 一 个 特定 对 象 ， 则 这 个 对 象 必 须 在 每 个 域内 都 有 一 个 单独 条 目 。 


145.2 ”对 象 的 访问 列表 


访问 矩阵 的 每 个 列 ， 可 以 实现 为 一 个 对 象 的 访问 列表 ， 如 10.6.2 节 所 述 。 显 然 ， 可 以 
不 用 考虑 空 的 条 目 。 每 个 对 象 的 访问 列表 包括 一 组 有 序 对 《〈 domain, rights-set )， 以 定 
义 具 有 非 空 访问 权限 集合 的 那些 域 。 

这 种 方法 可 以 轻松 扩展 ， 以 便 定义 一 个 列表 加 上 一 个 访问 权限 的 默认 集合 。 当 在 域 D; 
中 对 对 象 0; 尝试 操作 M 时 ， 搜 索 对 象 O 的 访问 列表 ， 查 找 条 目 〈《 Di, Re), HP M E Reo 
如 果 找 到 条 目 ， 则 允许 操作 ; 如 果 没 有 找到 ， 则 检查 默认 集合 。 如 果 默 认 集合 有 M， 则 允许 
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访问 。 和 否则 ， 拒 绝 访问 ， 并 引起 异常 。 为 了 提高 效率 ， 可 以 首先 检查 默认 集合 ， 然 后 搜索 访 
问 列表 。 


14.5.3 域 的 能 力 列表 


我 们 可 以 将 每 行 与 其 域 相关 联 ， 而 不 是 将 访问 矩阵 的 列 与 对 象 按 访问 列表 来 关联 。 域 的 
能 力 列表 (capability list) 是 一 个 列表 ， 它 由 一 组 对 象 以 及 对 象 允 许 的 操作 组 成 。 对 象 表示 
通常 采用 物理 名 称 或 地 址 ， 称 为 能 力 ( capability)。 当 对 对 象 O; 执行 操作 M 时 ， 进 程 执 行 
操作 M， 从 而 指定 对 象 O 的 能 力 (或 指针 ) 作为 参数 。 能 力 的 简单 拥有 (possession) 意味 
着 允许 访问 。 

虽然 能 力 列表 与 域 相关 联 ， 但 是 执行 在 该 域 中 的 进程 不 能 直接 访问 它 。 相 反 ， 能 力 列表 
本 身 是 受 保护 的 对 象 ， 由 操作 系统 维护 ， 而 用 户 只 能 按 间 接 方式 来 访问 。 基 于 能 力 的 保护 依 
赖 以 下 事实 ， 决 不 允许 迁移 能 力 到 用 户 可 以 直接 访问 的 任何 地 址 空间 (因此 可 以 修改 )。 如 
果 所 有 能 力 是 安全 的 ， 则 它们 保护 的 对 象 也 是 安全 的 ， 以 防止 未 经 授权 的 访问 。 

能 力 最 初 作为 一 种 安全 指针 提出 ， 以 满足 资源 保护 的 需要 ( 随 着 多 道 程序 计算 机 系统 的 
成 熟 ， 这 早 就 被 预见 到 了 )。 这 种 固有 保护 指针 的 想法 提供 了 一 种 保护 平台 ， 以 扩展 到 应 用 
程序 级 别 。 

为 了 提供 固有 保护 ， 必 须 区 分 能 力 和 其 他 对 象 类 型 ， 并 且 通 过 运行 更 高 级 别 程序 的 抽象 
机 器 来 解释 能 力 。 通 常 采用 以 下 两 种 途径 来 区 分 能 力 和 其 他 数据 : 

e 每 个 对 象 都 有 一 个 标签 (tag)， 以 表示 它 是 能 力 还 是 可 以 访问 的 数据 。 标 签 本 身 不 能 

由 应 用 程序 来 直接 访问 。 硬 件 或 固件 支持 ， 可 以 用 于 强制 这 种 限制 。 虽 然 区 分 能 力 
和 其 他 对 象 只 需 一 个 位 ， 但 是 通常 采用 多 个 位 。 这 种 扩展 允许 通过 硬件 标记 对 象 类 
型 。 因 此 ， 硬 件 通 过 标签 可 以 区 分 整数 、 浮 点 数 、 指 针 、 布 尔 值 、 字 符 、 指 令 、 能 
力 和 未 初始 化 的 值 。 
e 或 者 ， 与 程序 关联 的 地 址 空间 可 以 分 为 两 个 部 分 。 一 部 分 包含 程序 的 普通 数据 和 指 
令 ， 可 由 程序 直接 访问 。 另 一 部 分 包含 能 力 列表 ， 只 能 由 操作 系统 来 访问 。 分 段 存 
储 空间 ( 8.4 节 )， 有 助 于 支持 这 种 方式 。 
目前 已 经 开发 了 多 个 基于 能 力 的 保护 系统 ，14.8 节 会 讨论 它们 。 操 作 系统 Mach 也 采用 了 基 
于 能 力 的 保护 ， 附 录 B 对 此 有 具体 描述 。 


14.5.4 i - 钥匙 机 制 


锁 - 钥匙 方案 (lock-key scheme) 是 访问 列表 和 能 力 列表 的 折 中 。 每 个 对 象 都 有 一 个 唯 
一 的 位 模式 列表 ， 称 为 锁 (lock)。 类 似 地 ， 每 个 域 都 有 一 个 唯一 的 位 模式 列表 ， 称 为 钥匙 
(key)。 执 行 在 域 中 的 进程 可 以 访问 一 个 对 象 ， 仪 当 该 域 具 有 匹配 这 个 对 象 锁 的 一 个 钥匙 时 。 

与 能 力 列表 一 样 ， 域 钥匙 列表 必须 通过 操作 系统 代表 域 来 管理 。 用 户 不 允许 直接 检查 或 
修改 钥匙 (或 锁 ) 列表 。 


14.5.5 ”比较 


正如 你 可 能 期 望 的 ， 选 择 访问 矩阵 的 实现 技术 涉及 各 种 权衡 。 采 用 全 局 表 很 简单 ; A 
而 ， 这 张 表 可 能 相当 大 ， 通 常 不 能 利用 对 象 或 域 的 特殊 分 组 优势 。 访 问 列表 直接 对 应 用 户 需 
求 。 当 用 户 创建 对 象 时 ， 他 可 以 指定 哪些 域 可 以 访问 它 ， 以 及 人 允许 哪些 操作 。 然 而 ， 因 为 特 
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定 域 的 访问 权限 信息 不 是 本 地 的 ， 所 以 确定 域 的 访问 权限 集合 是 困难 的 。 此 外 ， 每 次 访问 对 
象 需要 检查 ， 需 要 搜索 访问 列表 。 对 于 具有 很 长 访问 列表 的 大 型 系统 ， 这 种 搜索 可 能 相当 
费时 。 

能 力 列表 不 直接 对 应 于 用 户 需 求 ， 但 是 它们 用 于 找 出 给 定 进程 的 信息 。 尝 试 访问 的 进程 
必须 具有 该 访问 的 能 力 。 那 么 ,保护 系统 只 需 验 证 该 能 力 是 否 有 效 。 人 然而， 撤销 能 力 的 效率 
可 能 不 高 (14.7 节 )。 

如 上 所 述 ， 锁 - 钥匙 机 制 是 访问 列表 和 能 力 列表 的 折 中 。 这 种 机 制 可 以 既 有 效 也 灵活 ， 
这 取决 于 钥匙 的 长 度 。 钥 匙 可 以 在 域 之 间 自 由 传递 。 此 外 ， 通 过 改变 与 对 象 关联 的 一 些 锁 的 
简单 技术 (14.7 节 )， 可 以 有 效 撤销 访问 特权 。 

大 多 数 系统 采用 访问 列表 和 能 力 的 组 合 。 当 进程 首先 尝试 访问 对 象 时 ， 搜 索 访问 列表 。 
如 果 访 问 被 拒绝 ， 则 会 发 生 蜡 常 状态 。 否 则 ， 将 创建 一 个 能 力 并 添加 到 进程 。 以 后 引用 使 用 
这 个 能 力 ， 可 以 迅速 表明 访问 是 允许 的 。 最 后 一 次 访问 之 后 ， 能 力 就 被 销毁 。 这 种 策略 用 于 
MULTICS 和 CAL 系统 。 

作为 这 种 策略 如 何 工作 的 示例 ， 考 虑 这 么 一 个 文件 系统 ， 其 中 每 个 文件 都 有 一 个 关联 的 
访问 列表 。 当 进程 打开 文件 时 ， 搜 索 目 录 结 构 以 查找 文件 ， 检 查访 问 权 限 ， 并 分 配 缓冲 区 。 
所 有 这 些 信息 记录 到 进程 文件 表 的 新 条 目 。 这 个 操作 返回 新 打开 文件 的 表 的 索引 。 所 有 的 文 
件 操作 通过 指定 文件 表 的 索引 来 进行 。 该 文件 表 的 条 目 然后 指向 文件 及 其 缓冲 区 。 当 文件 关 
闭 时 ， 该 文件 表 条 目 会 被 删除 。 由 于 文件 表 由 操作 系统 维护 ， 用 户 不 能 意外 损坏 它 。 因 此 ， [624] 
用 户 只 能 访问 那些 已 经 打开 的 文件 。 由 于 在 打开 文件 时 检查 访问 ， 确 保 了 保护 。 这 种 策略 用 
于 UNIX 系统 。 

每 次 访问 仍然 必须 检查 访问 权限 ， 文 件 表 的 条 目 只 对 允许 操作 才 有 能 力 。 如 果 打 开 文 件 
以 便 读 取 ， 则 读 取 访问 的 能 力 存放 到 文件 表 的 条 目 。 如 果 尝 试 写 人 文件 ， 则 系统 通过 比较 请 
求 操作 与 文件 表 的 条 目的 能 力 来 识别 这 种 保护 违规 。 


14.6 ”访问 控制 


10.6.2 节 描 述 了 访问 控制 如 何 可 以 用 于 文件 系统 的 文件 。 每 个 文件 和 目录 被 分 配 一 个 所 
有 者 、 一 个 组 或 用 户 列 表 ， 而 每 个 这 样 的 实体 都 被 分 配 访问 控制 信息 。 类 似 功 能 可 以 添加 到 
计算 机 系统 的 其 他 方面 。 一 个 很 好 的 例子 可 以 在 Solaris 10 中 找到 。 

通过 基于 角色 访问 控制 ( Role-Based Access 
Control, RBAC) 来 明确 增加 最 低 特权 原则 ，Solaris 
10 提高 了 操作 系统 的 保护 。 这 种 功能 围绕 特权 。 特 
权 ， 为 执行 系统 调用 或 采用 系统 调用 选项 (如 打开 
一 个 文件 以 便 写 入 ) 的 权利 。 权 限 可 以 分 配给 进 
程 ， 以 限制 它们 只 能 访问 完成 工作 所 必需 的 。 权 限 
和 程序 也 可 以 分 配角 色 (role)。 用 户 可 以 分 配角 色 
或 者 根据 角色 密码 来 获取 和 角色。 采用 这 种 方法 ， 用 
户 可 以 获取 启用 特权 的 和 角色， 以 便 允 许 用 户 执行 
程序 来 完成 具体 任务 ， 如 图 14-8 所 示 。 特 权 的 这 
种 实现 降低 了 与 超级 用 户 和 setuid 程序 有 关 的 安全 
风险 。 图 14-8 Solaris 10 的 基于 角色 的 访问 控制 1625 


按 角色 1 权限 来 执行 
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请 注意 : 这 种 功能 类 似 于 14.4 节 所 述 的 访问 矩阵 。 本 章 结 尾 的 习题 会 进一步 探讨 这 种 
关系 。 


14.7 访问 权限 的 撤回 


在 动态 保护 系统 中 ， 可 能 有 时 需要 撤回 不 同 用 户 共享 对 象 的 访问 权限 。 撤 回 可 能 引起 各 
种 问题 : 
e 立即 与 延迟 : 立即 还 是 延迟 撤回 ?如果 延 迟 撤 回 ， 能 否 知 道 何 时 撤回 ? 
e 可 选 与 一 般 : 当 撤回 对 象 的 访问 权限 时 ， 是 否 影 响 拥 有 这 个 对 象 的 访问 权限 的 所 有 
用 户 ， 还 是 可 以 指定 访问 权限 应 该 撤回 的 一 组 可 选用 户 ? 
部 分 与 总 体 : 可 以 撤回 与 一 个 对 象 关 联 的 部 分 权限 ， 或 者 必须 撤回 这 个 对 象 的 所 有 
访问 权限 ? 
临时 与 永久 : 可 以 永久 撤回 访问 权限 〈 即 撤回 的 访问 权限 永远 不 会 再 有 )， 或 者 可 以 
撤回 访问 权限 ， 以 后 再 获得 ? 
采用 访问 列表 方案 ， 撤 回 很 容易 。 搜 索 访 问 列表 以 便 查 找 需要 撤回 的 任何 访问 权限 ， 并 
从 列表 中 删除 它们 。 撤 回 是 立即 的 ， 可 以 一 般 或 可 选 、 总 体 或 部 分 、 永 入 或 临时 。 
然而 ， 如 前 所 述 ， 能 力 提 供 了 一 个 更 难 的 撤回 问题 。 由 于 这 些 能 力 分 布 在 整个 系统 中 ， 
我 们 必须 在 撤回 之 前 先 找 到 它们 。 实 现 撤回 能 力 的 方案 包括 以 下 内 容 : 
o 重新 获得 : 定期 地 从 每 个 域 中 删除 能 力 。 如 果 进 程 想 要 使 用 一 个 能 力 ， 它 可 能 发 现 
这 个 能 力 已 被 删除 。 进 程 可 能 尝试 重新 获得 能 力 。 如 果 访 问 已 被 撤回 ， 则 进程 将 无 
法 重新 获得 能 力 。 

e 后 指针 : 每 个 对 象 都 有 指针 列表 ， 指 向 与 其 关联 的 所 有 能 力 。 当 要 求 撤回 时 ， 可 以 
跟随 这 些 指 针 ， 根 据 必 要 改变 能 力 。 这 种 方案 为 MULTICS 系统 采纳 。 它 相当 通用 ， 
但 是 实现 昂贵 。 

o 间接 : 能 力 间接 或 直接 指向 对 象 。 每 个 能 力 指向 全 局 表 的 唯一 条 目 ， 进 而 指向 对 象 。 
实现 撤回 包括 : 搜索 全 局 表 来 获取 所 需 的 条 目 ， 并 删除 。 然 后 ， 当 尝试 访问 时 ， 发 
现 能 力 指向 非法 的 表 条 目 。 表 的 条 目 可 以 没有 困难 地 重用 到 其 他 能 力 ， 因 为 能 力 和 
表 条 目 拥有 对 象 的 唯一 名 称 。 能 力 和 其 表 条 目的 对 象 必 须 匹 配 。 这 种 方案 为 CAL 系 
统 所 采用 。 它 不 允许 可 选 的 撤回 。 
钥匙 : 钥匙 是 与 能 力 关 联 的 唯一 的 位 模式 。 这 个 钥匙 在 创建 能 力 时 定义 ， 并 且 不 能 
被 拥有 这 个 能 力 的 进程 更 改 和 检查 。 每 个 对 象 关联 一 个 主 钥 (master key) ; 它 可 以 通 
过 操作 set-key 来 定义 或 替换 。 当 创建 能 力 时 ， 主 钥 的 当前 值 与 能 力 相关 联 。 当 行 
使 能 力 时 ， 比 较 其 钥匙 与 主 钥 。 如 果 它 们 匹配 ， 则 允许 操作 继续 ; 否则 ， 引 起 异常 
条 件 。 撤 回 通过 操作 set-key 采用 新 值 来 蔡 换 主 钥 ， 使 得 这 个 对 象 的 所 有 以 前 能 力 
失效 。 

这 种 方案 不 允许 可 选择 的 撤回 ， 因 为 每 个 对 象 只 关联 一 个 主 铀 。 如 果 每 个 对 象 
关联 一 个 钥匙 列表 ， 则 可 以 实现 可 选择 的 撤回 。 最 后 ， 可 以 将 所 有 钥匙 组 成 一 个 全 
局 钥匙 表 。 删 除 全 局 表 内 的 匹配 钥匙 可 以 实现 撤回 。 通 过 这 种 方案 ， 多 个 对 象 可 以 
关联 一 个 钥匙 ， 并 且 每 个 对 象 可 以 关联 多 个 钥匙 ， 从 而 提供 最 大 的 灵活 性 。 

在 基于 钥匙 的 方案 中 ， 定 义 钥匙 、 搬 和 人 钥匙 到 列表 、 删 除 列表 中 的 钥匙 不 应 适 
用 所 有 用 户 。 特 别 地， 只 有 对 象 所 有 者 允许 设置 对 象 钥匙 才 是 合理 的 。 然 而 ， 这 种 
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选择 是 个 策略 决策 ， 保 护 系 统 可 以 实现 它 ， 但 不 应 定义 它 。 


14.8 ”基于 能 力 的 系统 


本 节 研 究 两 个 基于 能 力 的 保护 系统 。 在 复杂 性 和 实现 策略 类 型 方面 ， 两 个 系统 有 所 不 
同 。 它 们 的 使 用 并 不 普遍 ， 但 是 为 保护 理论 提供 了 有 趣 的 佐证 。 


14.8.1 例子 : Hydra 


Hydra 是 个 基于 能 力 的 保护 系统 ， 具 有 相当 的 灵活 性 。 这 个 系统 实现 了 一 套 固定 的 可 能 
访问 权限 ， 包 括 基本 的 访问 形式 ， 如 读 、 写 ， 或 者 操作 一 个 内 存 段 等 权限 。 另 外 ，( 保 护 系 
统 ) 用 户 可 以 声明 其 他 权限 。 用 户 定义 权限 的 解释 只 能 通过 用 户 程序 ， 但 是 系统 为 使 用 这 些 
权限 以 及 系统 定义 权限 提供 访问 保护 。 这 些 功 能 是 保护 技术 的 重大 发 展 。 

对 象 操 作 通 过 程序 来 定义 。 实 现 这 些 操作 的 程序 本 身 就 是 某 种 形式 的 对 象 ， 而 且 它 们 
通过 能 力 间 接 访问 。 如 果 系 统 处 理 用 户 定义 的 类 型 ， 则 它 必 须 识别 用 户 定 义 程序 的 名 称 。 当 
Hydra 获知 对 象 定义 时 ， 这 个 类 型 的 操作 名 称 变 成 辅助 权限 (auxiliary right)。 辅 助 权限 可 以 [627 
通过 类 型 实例 能 力 来 描述 。 当 进程 对 类 型 对 象 执行 操作 时 ， 它 持 有 对 象 的 能 力 必 须 在 辅助 权 
限 中 包含 调用 操作 的 名 称 。 根 据 实例 和 进程 ， 这 个 限制 能 够 区 分 访问 权限 。 

Hydra 也 提供 权限 扩充 ( right amplification )。 这 个 方案 允许 ， 认 和 定 为 可 信赖 的 程序 可 以 
代表 具有 权限 来 执行 它 的 进程 ， 来 操作 指定 类 型 的 形式 参数 。 可 信赖 程序 持 有 的 权限 独立 于 
并 可 能 超过 调用 程序 持 有 的 权限 。 然 而 ， 不 能 认为 这 样 的 程序 是 普遍 可 信赖 的 (例如 ， 程 序 
不 允许 操作 其 他 类 型 ); 而且 不 能 扩展 可 信赖 到 进程 执行 的 其 他 程序 或 程序 段 。 

扩充 允许 实现 程序 来 访问 抽象 数据 类 型 的 表示 变量 。 例 如 ， 如 果 进 程 持 有 类 型 对 象 4 
的 能 力 ， 则 这 个 能 力 可 以 包括 辅助 权限 以 调用 操作 已， 但 不 包括 任何 所 谓 的 内 核 权 限 ， 如 读 
取 、 写 人 或 执行 代表 4 的 段 。 这 个 能 力 为 进程 提供 了 一 种 手段 ， 来 间接 访问 4 的 表示 (通过 
ERE P), 但 仅 限于 特定 目的 。 

然而 ， 当 进程 调用 对 象 4 的 操作 时 ,访问 4 的 能 力 在 控制 传 到 PP 的 代码 时 可 以 扩充 。 
这 个 扩充 可 能 是 必需 的 ， 以 允许 P 拥 有 权限 来 访问 代表 4 的 存储 段 ， 从 而 实现 P 在 抽象 数 
据 类 型 上 定义 的 操作 。P 的 代码 能 够 允许 直接 读 、 写 AB, 但 调用 进程 不 能 。 在 P 了 返回 时 ， 
4 的 能 力 恢复 到 原来 的 、 未 扩充 的 状态 。 这 种 情况 是 典型 的 : 根据 执行 任务 ， 进 程 持 有 访问 
保护 段 的 权限 必须 动态 改变 。 权 限 的 动态 调整 保证 程序 员 定义 的 抽象 的 一 致 性 。 当 在 Hydra 
操作 系统 中 声明 抽象 类 型 时 ， 可 以 显 式 说 明 权 限 扩充 。 

当 用 户 将 对 象 作 为 参数 传递 到 程序 时 ， 可 能 需要 确保 程序 不 能 修改 对 象 。 通 过 传递 没有 
修改 (E) 的 访问 权限 ， 就 可 轻松 实现 这 种 限制 。 然 而 ， 如 果 扩 充 可 能 发 生 ， 则 修改 权限 就 
有 可 能 恢复 。 因 此 ， 用 户 保护 需求 可 以 绕 过 。 当 然 ， 一 般 来 说 ， 用 户 可 以 相信 ， 程 序 可 以 正 
确 完成 任务 。 然 而 ， 由 于 硬件 或 软件 错误 ， 这 个 假设 并 不 总 是 成 立 。Hydra 通过 限制 扩充 来 
解决 这 个 问题 。 

Hydra 程序 调用 机 制 的 设计 旨 在 直接 解决 双向 怀疑 子 系统 的 问题 。 这 个 问题 定义 如 下 。 
假设 一 个 程序 可 以 由 多 个 不 同 用 户 调用 为 服务 (如 排序 程序 、 编 译 器 、 游 戏 )。 当 用 户 调用 
这 个 服务 程序 时 ， 承 担 的 风险 包括 : 程序 或 出 错 ， 或 损坏 给 定 的 数据 ， 或 保留 一 些 数 据 以 后 
使 用 (未 授权 ) 等 。 类 似 地 ， 服 务 程序 可 能 有 一 些 私有 文件 (如 为 了 计算 )， 负 责 调用 的 用 户 ”[628] 
程序 不 能 直接 访问 这 些 文件 。Hydra 提供 机 制 来 直接 处 理 这 类 问题 。 
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Hydra 子 系统 建立 在 保护 内 核 之 上 ， 并 且 可 能 要 求 对 自己 的 组 件 的 保护 。 子 系统 与 内 核 
的 交互 采用 调用 一 组 内 核定 义 的 原 语 ， 这 些 原 语 定义 了 子 系统 资源 的 访问 权限 。 子 系统 设计 
者 可 以 定义 用 户 进程 使 用 这 些 资源 的 策略 ， 但 是 强制 策略 采用 能 力 系统 提供 的 标准 访问 保护 。 

程序 员 在 熟悉 适当 参考 手册 的 功能 之 后 ， 可 以 直接 使 用 保护 系统 。Hydra 提供 了 一 个 庞 
大 的 系统 程序 库 ， 以 便 用 户 程 序 调 用 。 程 序 员 可 以 直接 调用 这 些 系统 程序 ， 或 者 可 以 采用 程 
序 解释 需 来 连接 到 Hydra. 


14.8.2 BF: 剑桥 CAP 系统 


剑桥 CAP 系统 (Cambridge CAP system) 的 设计 采用 了 基于 能 力 的 不 同 保护 方法 。CAP 
的 能 力 系统 更 加 简单 ， 表 面 不 如 Hydra 强大 。 然 而 ， 仔 细 分 析 显 示 ， 它 也 能 提供 用 户 定 义 
对 象 的 安全 保护 。CAP 有 两 种 类 型 的 能 力 。 普 通 类 型 称 为 数据 能 力 ( data capability), El 
以 用 来 提供 访问 对 象 ， 但 是 提供 的 权限 只 是 标准 的 读 取 、 写 人 和 执行 与 对 象 相关 的 各 个 存储 
段 。 数 据 能 力 由 CAP 机 器 的 微 码 来 解释 。 

第 二 种 类 型 能 力 称 为 软件 能 力 (software capability), CAP 微 码 保护 它 但 不 能 解释 它 。 
它 的 解释 属于 保护 ( 即 特权 ) 程序 ， 这 个 程序 可 以 由 应 用 程序 员 按 子 系统 的 一 部 分 来 编写 。 
保护 程序 关联 特定 类 型 的 权限 扩充 。 当 执行 这 种 程序 的 代码 主体 时 ， 进 程 暂时 取得 读 写 软件 
能 力 内 容 本 身 。 这 个 特定 类 型 的 权限 扩充 对 应 能 力 原 语 seal 和 unseal 的 实现 。 当 然 ， 这 
个 特权 仍然 受到 类 型 验证 ， 以 确保 只 有 指定 抽象 类 型 的 软件 能 力 传 到 任何 此 类 程序 。 通 用 信 
任 只 能 采用 CAP 机 器 的 微 码 ， 而 不 能 采用 其 他 的 代码 (参见 本 章 末 尾 的 推荐 读物 )。 

解释 软件 能 力 完 全 交 给 包含 保护 程序 的 子 系统 。 这 种 方案 允许 实现 各 种 保护 策略 。 虽 然 
程序 员 可 以 定义 自己 的 受 保护 程序 (其 中 有 的 可 能 不 正确 )， 但 是 整个 系统 的 安全 性 不 会 受 
到 影响 。 基 本 保护 系统 不 会 允许 未 经 验证 的 、 用 户 定义 的 保护 程序 ， 访 问 不 属于 该 进程 所 处 
的 保护 环境 的 任何 存储 段 (或 能 力 )。 非 安全 保护 程序 的 最 严重 后 果 是 ， 该 程序 负责 的 子 系 
统 发 生 保护 故障 。 

CAP 系统 的 设计 人 员 已 经 发 现 ， 在 规范 和 实现 与 抽象 资源 要 求 相称 的 保护 策略 时 ， 采 
用 软件 能 力 变 得 相当 节省 。 然 而 ， 想 要 利用 这 种 功能 的 子 系统 设计 人 员 不 能 只 靠 学 习 参 考 手 
册 ， 这 与 Hydra 不 同 。 相 反 ， 他 们 必须 学 习 保 护 原理 和 技巧 ， 因 为 系统 没有 提供 程序 库 。 


14.9 基于 语言 的 保护 


对 于 现 有 计算 机 系统 提供 保护 的 程度 ， 实 现 通常 采用 操作 系统 内 核 作 为 安全 代理 ， 以 便 
检查 和 验证 保护 资源 的 每 次 访问 尝试 。 由 于 全 面 访问 验证 可 能 具有 相当 大 的 开销 ， 要 么 必须 
采用 硬件 支持 以 降低 每 次 验证 成 本 ,或 者 必须 允许 系统 设计 人 员 来 妥协 保护 目标 。 如 果 提 供 
的 支持 机 制 限制 了 实现 保护 策略 的 灵活 性 ， 或 者 如 果 保 护 环境 超过 必要 以 致 不 能 确保 更 大 的 
操作 效率 ， 则 很 难 满足 所 有 目标 。 

随 着 操作 系统 变 得 越 来 越 复杂 ， 特 别 是 试图 提供 更 高 级 别 的 用 户 接口 ， 保 护 目标 已 经 变 
得 更 加 完善 。 保 护 系 统 的 设计 人 员 大 量 吸取 了 源 自 程序 语言 的 思想 ,特别 是 抽象 数据 类 型 和 
对 象 的 概念 。 保 护 系统 现在 不 仅 涉 及 尝试 访问 资源 的 身份 ， 而 且 考虑 访问 的 功能 性 质 。 对 于 
最 新 保护 系统 ， 关 注 的 调用 函数 超出 了 系统 定义 的 一 组 函数 ， 如 标准 的 文件 访问 方法 ， 也 包 
括 了 用 户 定义 的 函数 。 

资源 使 用 的 策略 根据 应 用 可 能 不 同 ， 并 且 它 们 可 能 随 着 时 间 推 移 而 改变 。 基 于 这 些 原 
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H, 保护 不 再 只 是 操作 系统 设计 人 员 才 要 考虑 的 问题 。 它 也 应 该 作为 应 用 程序 设计 人 员 使 用 
的 工具 ， 从 而 可 以 保护 应 用 子 系统 的 资源 ， 以 防止 发 生 算 改 或 错误 。 


14.91 基于 编译 程序 的 实现 


这 里 ， 可 以 采用 程序 语言 。 指 定 系统 共享 资源 的 所 需 访 问 控制 是 资源 的 声明 语句 。 这 种 
声明 语句 可 以 通过 扩展 类 型 功能 集成 到 语言 中 。 当 采用 数据 类 型 声明 保护 时 ， 每 个 子 系统 的 
设计 人 员 可 以 指定 保护 需求 以 及 其 他 系统 资源 的 使 用 需求 。 这 种 规范 应 该 在 编写 程序 时 通过 
程序 编写 语言 直接 给 出 。 这 种 方法 具有 多 种 明显 优势 : 

© 保护 需求 只 需 简 单 声明 ， 而 无 需 通 过 操作 系统 的 调用 程序 序列 来 编程 。 

© 保护 需求 可 以 独立 于 特定 操作 系统 提供 的 功能 。 

© 实现 手段 无 需 通过 子 系统 设计 人 员 来 提供 。 

o 声明 表达 是 自然 的 ， 因 为 访问 权限 与 数据 类 型 的 语言 概念 是 密切 相关 的 。 

通过 编程 语言 实现 可 以 提供 多 种 保护 技术 ， 但 是 任何 这 些 在 一 定 程度 上 必须 依赖 底层 机 
器 与 操作 系统 的 支持 。 例 如 ， 假 设 采用 一 种 语言 生成 代码 以 便 运 行 在 剑桥 CAP 系统 上 。 在 
这 个 系统 上 ， 针 对 底层 硬件 的 每 次 存储 引用 ， 通 过 能 力 间接 进行 。 这 种 限制 随时 防止 任何 进 
程 访 问 自身 保护 环境 之 外 的 资源 。 然 而 ， 对 于 执行 特定 代码 段 时 的 资源 使 用 ， 程 序 可 以 施加 
任何 限制 。 通 过 CAP 提供 的 软件 能 力 ， 我 们 可 以 轻松 实现 这 类 限制 。 语 言 实现 可 以 提供 标 
准 保护 程序 ， 以 便 解 释 软 件 能 力 ， 即 通过 语言 规定 的 保护 策略 的 实现 。 这 种 方案 将 策略 规范 
交 给 程序 员 ， 同 时 使 得 他 们 免 于 实现 强制 。 

即使 系统 没有 提供 强大 的 保护 内 核 (如 Hydra 或 CAP)， 仍 然 有 机 制 来 实现 编程 语言 规 
定 的 保护 。 主 要 区 别 是 ， 这 种 保护 的 安全 不 如 保护 内 核 支持 的 那么 强大 ， 因 为 这 种 机 制 必须 
依赖 有 关系 统 运转 状态 的 更 多 假设 。 编 译 器 可 以 区 分 不 能 发 生 保护 违规 的 和 可 能 发 生 保 护 违 
规 的 引用 ,并 且 可 以 区 别 对 待 它们 。 这 种 保护 形式 的 安全 假设 ,编译 器 的 生成 代码 在 执行 前 
或 执行 时 不 被 修改 。 

完全 基于 内 核 的 实现 与 主要 通过 编译 器 提供 的 实现 ， 两 者 有 何 相对 优势 ? 

© 安全 : 与 编译 器 生 成 的 保护 检查 代码 相 比 ， 通 过 内 核 的 实现 为 保护 系统 本 身 提供 了 更 
强 的 安全 性 。 对 于 编译 器 支持 的 方案 ,安全 性 取决 于 : 编译 器 的 正确 性 、 存 储 管理 的 
底层 机 制 (用 于 保护 编译 代码 执行 的 段 ) 及 执行 加 载 程序 的 最 终 文件 的 安全 性 。 这 些 
考虑 的 有 些 在 较 小 程度 上 也 适用 于 软件 支持 的 保护 内 核 ， 因 为 内 核 可 能 驻 留 在 固定 
的 物理 存储 段 上 ， 并 且 可 以 仅 从 指定 文件 来 加 载 。 对 于 基于 标签 的 能 力 系 统 ， 其 中 
所 有 地 址 计算 都 是 通过 硬件 或 固定 微 码 来 执行 的 ， 可 能 得 到 更 强 的 安全 性 。 硬 件 支 
持 的 保护 ， 对 于 硬件 或 系统 软件 的 故障 可 能 引发 的 保护 侵犯 ， 也 有 比较 强 的 免疫 力 。 
灵活 性 : 虽然 保护 内 核 可 以 为 系统 提供 足够 功能 来 实现 系统 本 身 的 策略 ， 但 是 在 实 
现 用 户 自 定义 的 策略 时 ， 灵 活性 方面 有 些 限制 。 采 用 编程 语言 ， 按 实现 需要 可 以 声 
明和 实现 保护 策略 。 如 果 语 言 不 能 提供 足够 的 灵活 性 ， 则 可 以 扩展 或 替换 这 种 语言 ， 
而 且 与 修改 操作 系统 内 核 相 比 这 样 带 来 的 干扰 更 少 。 
效率 : 如 果 硬 件 (或 微 码 ) 直接 支持 实施 保护 ， 则 效率 最 高 。 在 需要 软件 支持 的 情况 
下 ， 基 于 语言 的 实施 有 自己 的 优势 : 静态 访问 的 实施 可 以 在 编译 时 离线 验证 。 男 外 ， 
由 于 智能 编译 器 可 以 定制 实施 机 制 来 满足 规定 需求 ， 内 核 调 用 的 固定 开销 通常 可 以 
避免 。 
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总 之 ， 编 程 语言 的 保护 规范 允许 高 级 描述 资源 的 分 配 和 使 用 。 当 没有 硬件 支持 的 自动 检 
查 时 ,语言 实现 可 为 保护 实施 提供 软件 。 另 外 ， 它 可 以 解释 保护 规范 ， 以 生成 由 硬件 和 操作 
系统 提供 的 保护 系统 的 调用 。 

为 应 用 程序 提供 保护 的 一 种 方法 是 通过 使 用 作为 计算 对 象 的 软件 能 力 。 这 个 概念 的 内 在 
想法 是 ， 某 些 程序 组 件 可 能 拥有 特权 ， 以 创建 和 检查 这 些 软件 能 力 。 创 建 能 力 的 程序 可 能 执 
行 一 个 原 语 操作 来 密封 数据 结构 ， 使 得 没有 持 有 密封 和 解 封 特 权 的 任何 程序 组 件 不 能 访问 它 
的 内 容 。 这 些 组 件 可 以 复制 数据 结构 或 者 将 其 地 址 传 到 其 他 程序 组 件 ， 但 他 们 无 法 访问 其 内 
容 。 引 入 这 种 软件 能 力 的 原因 是 ， 引 人 保护 机 制 到 编程 语言 。 这 个 概念 的 唯一 问题 是 ， 使 用 
密封 ( seal) 和 解 封 (unseal) 操作 需要 通过 程序 方式 来 指定 保护 。 非 过 程式 的 或 者 声明 式 的 
符号 似乎 是 个 更 可 取 的 方法 ， 以 让 应 用 程序 员 能 够 使 用 保护 。 

针对 在 用 户 进程 之 间 分 配 系统 资源 的 能 力 ， 需 要 的 是 一 个 安全 的 、 动 态 的 访问 - 控制 机 
制 。 为 了 提高 系统 整体 的 可 靠 性 ， 访 问 控制 机 制 在 使 用 时 应 是 安全 的 。 为 了 实用 ， 它 也 应 相 
当 高 效 。 这 些 要 求 导致 开发 了 一 些 语言 结构 ， 以 便 允 许 程序 员 在 使 用 特定 的 管理 资源 时 声明 
各 种 各 样 的 限制 (参见 本 章 的 推荐 读物 )。 这 些 结构 提供 了 三 种 功能 机 制 : 

e 为 客户 进程 安全 且 有 效 地 分 配 能 力 。 特 别 地 ， 机 制 确保 : 用 户 进程 只 有 获得 被 管理 

632 资源 的 能 力 时 才能 使 用 它 。 
o 指定 特定 进程 对 分 配 资源 可 以 调用 的 操作 类 型 (例如 ， 文件 的 读者 只 能 读 文件 ， 而 文 
件 的 写 者 应 能 读 且 能 写 文件 )。 没 有 必要 为 每 个 用 户 进程 授予 同样 的 权限 ; 除非 有 访 
问 控制 机 制 的 授权 ， 否 则 进程 不 能 扩大 自己 的 访问 权限 集合 。 
e 指定 特定 进程 调用 某 项 资源 的 各 种 操作 的 顺序 (例如 ,文件 只 有 先 打开 才能 读 )。 两 
个 进程 可 以 对 分 配 资源 的 操作 顺序 有 不 同 的 约束 。 

保护 概念 集成 到 编程 语言 ， 作 为 系统 设计 的 实用 工具 ， 处 于 起 步 阶段 。 对 于 分 布 式 体系 
结构 的 新 系统 设计 人 员 和 日 益 严 格 的 数据 安全 要 求 ， 保 护 可 能 更 加 重要 。 表 达 保 护 要 求 的 适 
当 语言 符号 的 重要 性 也 会 引起 更 广泛 的 认可 。 


14.9.2 Java 的 保护 


因为 Java 设计 成 运行 于 分 布 式 环境 中 ，Java 虚拟 机 (VM) 具有 许多 内 置 的 保护 机 制 。 
Java 程序 由 类 (class) 组 成 ， 每 个 类 都 是 数据 字段 和 函数 ( 称 为 方法 (method)， 可 以 操作 数 
据 域 ) 的 集合 。 当 需要 创建 类 的 实例 (或 对 象 ) 时 ，JVM WRX., Java 最 为 新 颖 、 实 用 的 特 
性 之 一 是 : 它 支 持 通 过 网 络 动 态 加 载 不 受信 任 的 类 ， 支 持 在 同一 JVM 中 执行 互 不 信任 的 类 。 
由 于 这 些 能 力 ， 保护 至 关 重 要 。 运 行 在 同一 JVM 中 的 类 可 以 有 不 同 的 来 源 ， 也 可 以 有 
不 同 的 可 信和 度 。 因 此 ， 按 JVM 进程 级 别 来 执行 保护 是 不 够 的 。 直 观 地 说 ， 是 否 允 许 文 件 打 
开 请 求 一 般 取 决 于 请 求 打 开 的 类 。 操 作 系 统 缺 乏 这 种 知识 。 
因此 ， 这 种 保护 决定 由 JVM 来 处 理 。 当 JVM 加 载 一 个 类 时 ， 它 为 该 类 分 配 一 个 保护 
域 ， 以 给 出 该 类 的 权限 。 类 所 分 配 的 保护 域 取决 于 加 载 类 的 URL 以 及 类 文件 的 数字 签名 
(关于 数字 签名 ， 参 见 15.4.1.3 节 )。 可 配置 的 策略 文件 确定 域 (及 其 类 ) 的 权限 。 例 如 ， 加 
载 来 自 可 信赖 服务 器 的 类 ， 可 被 分 配 到 人 允许 访问 用 户 目 录 文 件 的 保护 域 ; 而 加 载 来 自 不 受信 
赖 服务 器 的 类 ， 可 能 没有 任何 文件 访问 许可 。 
JVM 确定 哪个 类 负责 保护 资源 的 访问 请 求 ， 是 复杂 的 。 访 问 ， 通过 系统 库 或 其 他 类 ， 
(633) 通常 间接 执行 。 例 如 ， 考 虑 一 下 不 允许 打开 网 络 连接 的 类 。 它 可 以 调用 系统 库 ， 以 请 求 加 载 
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URL 的 内 容 。JVM 必须 决定 是 否 为 此 请 求 打开 网 络 连接 。 然 而 ， 应 该 采用 哪个 类 来 确定 是 
否 人 允许 这 个 连接 ， 是 应 用 程序 还 是 系统 库 ? 

Java 采用 的 理念 是 ， 要 求 库 类 明确 允许 网 络 连接 。 更 一 般 来 说 ， 为 了 访问 保护 资源 ， 
引发 请 求 的 调用 顺序 的 某 个 方法 必须 明确 声明 访问 资源 的 权限 。 这 样 ， 这 个 方法 负责 请 求 ; 
大 概 也 会 执行 任何 必要 的 检查 ， 以 确保 请 求 的 安全 。 当 然 ， 不 是 每 个 方法 都 允许 声称 特权 ; 
只 有 方法 所 属 的 类 处 于 允许 执行 特权 的 保护 域 中 时 ， 它 才能 声称 特权 。 

这 种 实现 方法 称 为 堆栈 检测 (stack inspection)。 每 个 JVM 线程 都 有 一 个 关联 堆栈 ， 以 
包含 正在 进行 的 调用 方法 。 当 调用 者 可 能 不 被 信任 时 ， 方 法 执行 doPrivileged() 块 的 访 
问 请 求 ， 以 便 直接 或 间接 执行 保护 资源 的 访问 。doPrivileged() 是 AccessController 
类 的 一 个 静态 方法 ， 可 以 通过 方法 run() 来 调用 。 当 进入 doPrivileged 块 时 ， 这 个 方法 
的 堆栈 帧 会 注 明 这 一 事实 。 然 后 ， 执 行 这 个 块 的 内 容 。 当 这 个 方法 或 它 的 调用 方法 随后 请 
求 保护 资源 的 访问 ,调用 checkPermissions() 用 于 堆栈 检查 ， 以 确定 是 否 允 许 请 求 。 这 
种 检查 分 析 调 用 线程 堆栈 上 的 堆栈 帧 ， 从 最 近 添 加 的 帧 开始 ， 一 直到 最 老 的 。 如 果 先 找 
到 一 个 含有 doPrivileged() 注释 的 栈 帧 ，checkPermissions() 立即 默默 返回 ， 人 允许 访 
问 。 如 果 先 找到 一 个 (依据 方法 类 的 保护 域 ) 不 允许 的 栈 帧 ，checkPermissions() 抛 出 
AccessControlException。 如 果 栈 检查 在 分 析 完 堆栈 之 后 ， 没 有 发 现 以 上 两 种 类 型 的 栈 
帧 ， 则 是 否 允 许 访问 取决 于 实现 (例如 ， 有 些 JVM 实现 可 能 允许 访问 ， 而 其 他 实现 可 能 不 
iF). 

堆栈 检查 如 图 14-9 所 示 。 这 里 ， 位 于 不 可 信 applet 保护 域 的 类 的 方法 gui() 执行 两 个 
操作 ， 首 先 get() ， 然 后 open() 。 前 者 是 调用 位 于 URL 加 载 器 保护 域 中 的 某 个 类 的 get () 
方法 ， 人 允许 打开 lucent.com 域 中 的 网 站 ， 特 别 是 用 于 获取 URL 的 代理 服务 器 proxy、 
lucent .com。 因 此 ， 不 可 信任 applet 的 get() 调用 会 成 功 : 网 络 库 的 checkPermissions() 
调用 遇 到 了 get () 方法 的 栈 帧 ， 它 执行 doPrivileged() 块 的 open()。 然 而 ， 不 可 信任 
applet 的 open() 调用 会 导致 异常 : 因为 checkPermissions() 调用 在 遇 上 gui() 方法 的 栈 
帧 前 ， 找 不 到 执行 特权 的 注释 。 


保护 域 : 不 可 信 的 小 程序 网 址 加 载 器 
see 


get(URL u): 





open(Addr a): 


doPrivileged { 


“ checkPermission 
# get (url); open( ‘proxy.lucent.com:80’ ); 


(a, connect); 


open (addr) ; } 


connect (a); 
ms <request u from proxy> 
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当然 ， 由 于 需要 执行 堆栈 检查 ， 必 须 禁 止 程序 修改 自己 栈 桢 的 注释 或 其 他 方式 的 堆栈 检 
查 。 这 是 Java 和 许多 其 他 语言 (包括 C++) 之 间 的 一 个 最 重要 的 差异 。Java 程序 无 法 直接 访 
HAF: 它 只 能 操作 拥有 引用 的 对 象 。 引 用 不 能 伪造 ， 操 作 只 能 通过 明确 定义 的 接口 进行 。 
通过 一 组 复杂 的 加 载 时 和 运行 时 的 检查 ， 强 制 执行 合 规 性 。 因 此 ， 对 象 不 能 操纵 它 的 运行 时 
堆栈 ， 因 为 它 无 法 获得 保护 系统 的 堆栈 或 其 他 组 件 的 引用 。 
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更 一 般 地 说 ，Java 加 载 时 和 运行 时 的 检查 强制 执行 Java 类 的 类 型 安全 (type safety). 
类 型 安全 确保 : 不 能 将 整数 视 为 指针 ， 写 过 数组 的 末尾 ,或 其 他 任意 方式 地 访问 内 存 。 相 
B, 程序 只 能 通过 类 中 定义 的 方法 来 访问 对 象 。 这 是 Java 保护 的 基础 ， 因 为 它 能 有 效 封装 
(encapsulate) 和 保护 它 的 数据 和 方法 ， 以 便 区 别 同一 JVM 加 载 的 其 他 类 。 例 如 ， 变 量 可 以 
定义 成 private， 这 样 包含 它 的 类 可 以 访问 它 ; RAER protected, 这样 只 有 包含 
它 的 类 、 它 的 子 类 或 同一 包 的 类 才 可 以 访问 它 。 类 型 安全 确保 可 以 执行 这 些 限制 。 


14.10 小结 


计算 机 系统 包含 许多 对 象 ， 它 们 需要 加 以 保护 ， 防 止 滥用 。 对 象 可 以 是 硬件 (如 内 存 、 
CPU Atl], VOW), 或 是 软件 (如 文件 、 程 序 、 信 号 量 )。 访问 权限 是 执行 对 象 操 作 的 许 
可 。 域 是 访问 权限 的 集合 。 进 程 在 域 中 执行 ， 可 以 采用 域内 的 任何 访问 权限 来 访问 或 操作 对 
象 。 在 整个 生命 周期 中 ， 进 程 可 以 绑 定 到 一 个 保护 域 ， 也 可 以 允许 从 一 个 保护 域 切换 到 另 一 
个 保护 域 。 

访问 矩阵 是 一 个 通用 的 保护 模型 ， 它 提供 了 一 种 保护 机 制 ， 而 无 需 对 系统 或 用 户 施加 特 
定 的 保护 策略 。 策 略 和 机 制 的 分 离 是 重要 的 设计 原则 。 

访问 矩阵 是 稀 朴 的 。 通 常 ， 它 的 实现 采用 每 个 对 象 关 联 的 访问 列表 或 每 个 域 关 联 的 能 力 
列表 。 通 过 将 域 和 访问 矩阵 本 身 视 作对 象 ， 访 问 和 矩阵 模型 可 以 包括 动态 保护 。 动 态 保 护 模型 
的 访问 权限 撤销 ， 采 用 访问 列表 (而 非 能 力 列表 ) 方案 通常 更 易 实现 ， 

实际 系统 比 通用 模型 具有 更 多 限制 ， 并 且 倾 向 于 仅 为 文件 提供 保护 。UNIX 是 个 代表 ， 
它 分 别 为 每 个 文件 的 所 有 者 、 组 和 普通 公共 用 户 提供 读 、 写 和 执行 等 权限 保护 。MULTICS 
除了 文件 访问 外 ， 还 采用 了 环形 结构 。Hydra、 剑 桥 CAP 系统 和 Mach 都 是 能 力 系统 ， 可 将 
保护 扩展 到 用 户 定义 的 软件 对 象 。Solaris 10 通过 基于 角色 的 访问 控制 (一 种 访问 矩阵 形式 )， 
来 实现 最 低 特权 原则 。 

与 操作 系统 能 够 提供 的 相 比 ， 基 于 语言 的 保护 为 请 求 和 特权 提供 了 更 细 粒 度 的 仲裁 。 例 
如 ， 单 个 Java JVM 可 以 运行 多 个 线程 ， 每 个 都 在 不 同 的 保护 类 。 它 通过 复杂 的 堆栈 检查 和 
语言 的 类 型 安全 强制 执行 资源 请 求 。 
习题 
14.1 考虑 MULTICS 的 环保 护 方案 。 如 果 典 型 操作 系统 的 系统 调用 需要 实现 ， 并 且 保 存在 与 环 0 关 

联 的 段 中 ， 则 段 描述 符 的 环 域 应 该 保存 何 值 ? 当 执 行 在 更 高 编号 环 的 进程 调用 环 0 的 程序 时 ， 

系统 调用 会 发 生 什么 ? 

14.2 访问 控制 矩阵 可 以 用 来 确定 进程 是 否 能 够 从 域 4 切换 到 域 ， 并 享受 域 B 的 访问 权限 。 这 种 方 

法 是 否 等 效 于 域 4 包括 域 8 的 访问 权限 ? 

14.3 考虑 这 么 一 个 用 于 游戏 的 计算 机 系统 ， 学 生 只 能 在 10 PM. 至 6 AM. 的 时 段 内 玩 游 戏 ， 教师 只 

能 在 5 P.M. 至 8 A.M. 的 时 段 内 玩 游戏 ， 而 计算 机 中 心 的 工作 人 员 可 在 任意 时 间 内 玩 游戏 。 提 出 

一 种 方案 来 有 效 地 实施 这 种 策略 。 

14.4 ”为 了 高 效 操纵 能 力 ， 计 算 机 系统 需要 什么 硬件 功能 ?这些 功能 能 不 能 用 于 内 存 保护 ? 
14.5 ”讨论 采用 对 象 关联 的 能 力 列表 来 实现 访问 矩阵 的 优 缺 点 。 
14.6 讨论 采用 域 关联 的 能 力 列表 来 实现 访问 矩阵 的 优 缺 点 。 
14.7 ”解释 为 什么 基于 能 力 的 系统 (如 Hydra) 在 实现 保护 策略 方面 比 环保 护 方案 更 为 灵活 ? 
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14.8 讨论 Hydra 权限 扩充 的 需要 。 比 较 这 种 做 法 与 环保 护 方案 的 跨 环 调用 。 
14.9 需要 知道 原则 是 什么 ?为 什么 保护 系统 遵守 这 个 原则 是 重要 的 ? 
14.10 讨论 以 下 哪个 系统 允许 模块 设计 人 员 执 行 需 要 知道 原则 ; 
a. MULTICS 环保 护 方案 
b. Hydra 的 能 力 
c.JVM 的 栈 检查 方案 
14.11 ”如果 允许 Java 程序 直接 更 改 栈 桢 的 注释 ， 描 述 Java 保护 模型 如 何 受 到 损害 。 
14.12 ”访问 和 矩阵 和 基于 角色 的 访问 控制 有 何 类 似 ? 它们 如 何不 同 ? 
14.13 ”最 低 特 权 原 则 如 何 帮助 创建 保护 系统 ? 
14.14 采用 最 低 特权 原则 的 系统 为 何 仍 会 引起 违反 安全 的 保护 故障 ? 


推荐 读物 

Lampson ( 1969 ) 和 Lampson ( 1971 ) 研究 了 域 和 对 象 之 间 的 访问 矩阵 的 保护 模型 。Popek( 1974 ) 
以 及 Saltzer 和 Schroeder ( 1975 ) 很 好 地 综述 了 保护 。Harrison 等 ( 1976 ) 采用 访问 矩阵 模型 的 形式 
版 本 ， 通 过 数学 方法 证 明 保 护 系 统 的 属性 。 

能 力 概念 源 自 Iliffe 和 Jodeit 的 codewords， 并 在 Rice 大 学 计算 上 加 以 实现 (iffe 和 Jodeit ( 1962 ) )。 
Dennis 和 Horn ( 1966 ) 引入 了 能 力 一 词 。 

Wulf 4 (1981) 描述 了 Hydra 系统 。Needham 和 Walker (1977) 描述 了 CAP 系统 。Organick 
(1972) 讨论 了 MULTICS 的 环保 护 系 统 。 

Redell 和 Fabry ( 1974 )、Cohen 和 Jefferson ( 1975 ) 以 及 Ekanadham 和 Bernstein ( 1979 ) 讨论 
THE, Hydra 的 设计 人 员 倡 导 策 略 和 机 制 的 分 离 原则 ( Levin 等 (1975 ))。Lampson ( 1973 ) 首先 讨 
论 了 约束 问题 ，Lipner ( 1975 ) 做 了 进一步 的 分 析 。 

Morris ( 1973 ) 首先 提出 采用 高 级 语言 来 规定 访问 控制 ， 并 提出 了 14.9 节 讨论 的 seal 以 及 unseal 
操作 。Kieburtz 和 Silberschatz ( 1978 )、Kieburtz 和 Silberschatz ( 1983 ) 以 及 McGraw 和 Andrews ( 1979 ) 
提出 了 各 种 语言 构造 方案 ， 来 动态 处 理 资源 管理 。Jones 和 Liskov (1978) 考虑 了 静态 访问 控制 方案 
如 何 集成 到 支持 抽象 数据 类 型 的 编程 语言 。Exokernel 项 目 提倡 采用 最 少 的 操作 系统 支持 来 实施 保护 
( Ganger 等 ( 2002 )、Kaashoek 等 ( 1997 ) ) Bershad 等 (1995 ) 讨论 了 通过 基于 语言 保护 机 制 的 系 
统 代码 的 扩展 。 实 施 保护 的 其 他 技术 包括 : 沙 箱 ( Goldberg 等 ( 1996 )) 和 软件 故障 隔离 ( Wahbe 等 
(1993 ))。McCanne 和 Jacobson ( 1993 ) 以 及 Basu 等 (1995 ) 讨论 了 降低 保护 成 本 的 关联 开销 和 人 允许 
用 户 访问 网 络 设备 等 问题 。 

堆栈 检查 的 更 为 详细 分 析 ， 包 括 与 其 他 Java 安全 方法 的 比较 ， 可 以 参见 Wallach 等 (1997 ) 和 
Gong “ (1997). 
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第 1S 章 | 


Operating System Concepts, Ninth Edition 


系统 安全 


正如 第 14 章 讨 论 的 那样 ， 严 格 来 说 ， 保 护 是 个 内 部 问题 : 对 计算 机 系统 存储 的 程序 和 
数据 ， 如 何 提供 受 控 访问 ? 另 一 方面 ， 安 全 〈security) 不 仅 要 求 足够 的 保护 系统 ， 而 且 还 要 
考虑 系统 运行 的 外 部 环境 。 如 果 用 户 认 证 受到 影响 或 者 未 经 授权 的 用 户 运行 程序 ， 那 么 保护 
系统 就 是 无 效 的 。 

计算 机 资源 必须 防范 未 经 授权 的 访问 、 恶 意 破坏 或 修改 及 不 一 致 的 意外 引入 等 。 这 些 资 
源 包括 系统 存储 的 信息 (数据 和 代码 )， 以 及 计算 机 的 CPU、 内 存 、 人 磁盘、 磁带 和 网 络 。 本 
章 首先 分 析 意外 或 故意 误 用 资源 的 各 种 可 能 方式 。 然 后 ， 探 讨 关键 的 安全 推动 器 一 加 密 。 
最 后 ， 介 绍 各 种 防范 或 检测 攻击 的 机 制 。 

本 章 目 标 

© 讨论 安全 威胁 和 攻击 。 

o 解释 加 密 、 认 证 和 哈 希 的 基本 原理 。 

© 分 析 计 算 密码 学 的 用 途 。 

e 描述 安全 攻击 的 各 种 对 策 。 


15.1 安全 问题 


对 于 许多 应 用 ， 确 保 计 算 机 系统 的 安全 值得 我 们 不 懈 努 力 。 包 含 工 资 表 或 其 他 财务 数据 
的 大 型 商业 系统 容易 招 贼 。 包 含 公司 业务 相关 数据 的 系统 ， 让 道德 不 良 的 竞争 对 手感 兴趣 。 
而 且 ， 无 论 是 意外 还 是 欺诈 ， 数 据 丢 失 都 会 严重 损害 公司 运作 能 力 。 
第 14 章 讨 论 了 操作 系统 可 以 提供 的 机 制 〈 借 助 一 些 硬 件 支持 )， 以 便 允 许 用 户 保 护 资 
源 ， 包 括 程序 和 数据 。 只 有 用 户 遵守 资源 的 使 用 和 访问 规则 ， 这 些 机 制 才能 很 好 地 发 挥 作 
用 。 如 果 在 所 有 情况 下 都 能 安全 地 使 用 和 访问 资源 ， 则 我 们 说 系统 是 安全 的 。 遗 憾 的 是 ， 完 
全 的 安全 是 不 可 能 实现 的 。 尽 管 如 此 ， 我 们 必须 提供 机 制 ， 使 得 安全 漏洞 是 少见 的 而 不 是 常 
见 的 。 
系统 的 安全 违规 (或 误 用 ) 可 以 分 为 有 意 CRE) 或 意外 。 防 止 意外 误 用 比 防 止 恶 意 破 
坏 更 加 容易 。 对 于 大 部 分 而 言 ， 保 护 机 制 是 保护 意外 发 生 的 核心 。 下 面 列 出 了 几 种 意外 和 恶 
意 形 式 的 安全 违规 。 应 该 注意 到 ， 当 讨论 安全 时 ， 术 语 入 侵 者 (intruder) 和 破解 者 (cracker) 
表示 那些 试图 违反 安全 的 人 员 。 另 外 ， 威 胁 (threat) 为 违反 安全 的 潜在 危险 ， 如 漏洞 ; 而 攻 
击 (attack) 则 是 试图 破坏 安全 。 
© 违反 机 密 。 这 类 违反 涉及 未 经 授权 的 数据 读 取 (或 信息 窃取 )。 通 常情 况 下 ， 机 密 违 
反 是 入 侵 者 的 目标 。 从 系统 或 数据 流 中 捕获 秘密 数据 ， 如 信用 卡 信息 或 身份 信息 ， 
可 使 入 侵 者 得 到 直接 经 济 回报 。 
e 违反 诚信 。 这 种 违规 行为 涉及 未 经 授权 的 数据 修改 。 例 如 ， 这 种 攻击 可 以 导致 转移 
责任 到 无 辜 的 一 方 ， 或 修改 重要 商业 应 用 的 源 代码 。 
e 违反 可 用 。 这 类 违规 行为 涉及 未 经 授权 的 数据 破坏 。 有 些 骇 客 宁愿 造成 巨大 破坏 并 获 
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得 地 位 或 吹牛 资本 ， 而 不 是 获得 经 济 利益 。 网 站 污染 是 这 种 安全 漏洞 的 常见 例证 。 
© 盗窃 服务 。 这 种 违规 行为 涉及 未 经 授权 的 资源 使 用 。 例 如 ， 入 侵 者 (或 人 侵 程 序 ) 可 
能 在 作为 文件 服务 器 的 系统 上 安装 一 个 守护 进程 。 
© 拒绝 服务 。 这 种 违规 行为 涉及 阻止 系统 的 合法 使 用 。 拒 绝 服务 ( Denial-of-Service， 
DoS) 攻击 有 时 是 意外 的 。 最 初 的 因特网 蠕虫 在 bug 未 能 延缓 传播 速度 时 ， 变 成 DoS 
攻击 。15.3.3 节 深 入 讨论 DoS 攻击 。 
攻击 者 采用 几 种 例 行 方法 来 试图 违反 安全 。 最 为 常见 的 是 伪装 (masquerading), MBS 
通信 的 一 方 假装 是 别人 另 一 主机 或 另 一 人 )。 通 过 伪装 ， 攻击 者 违反 认证 (authentication ) 
(正确 识别 )， 他 们 然后 能 够 获得 通常 不 被 允许 的 访问 权限 ， 或 升级 特权 ， 即 获得 他 们 通常 不 
具有 的 特权 。 另 一 种 常见 的 攻击 是 重播 捕获 的 交换 数据 。 重 播 攻 击 (replay attack) 包括 恶 
意 或 欺诈 的 有 效 数 据 重 播 。 有 时 ， 重 播 包 括 整 个 攻击 ， 例 如 ， 重 复 转 账 请 求 。 但 是 更 为 常见 
的 是 ， 与 消息 篡改 (message modification) 一 起 ， 再 次 升级 特权 。 如 果 身 份 认 证 请 求 的 合法 
用 户 信息 被 替换 成 未 经 授权 用 户 的 ， 想 想 可 能 会 造成 的 损害 。 还 有 一 种 攻击 是 中 间 人 攻击 
( man-in-middle attack)， 其 中 攻击 者 处 于 通信 的 数据 流 中 ， 伪 装 成 接收 者 的 发 送 者 ， 反 之 亦 
然 。 在 网 络 通信 中 ， 中 间 人 攻击 之 前 可 能 发 生 会 话 支持 (session hijacking)， 其 中 主动 通信 
会 话 被 截获 。 图 15-1 显示 了 这 几 种 攻击 方法 。 





攻击 者 
图 15-1 标准 的 安全 攻击 


如 前 所 述 ， 杜 绝 恶意 滥用 的 绝对 系统 保护 是 不 可 能 的 ， 但 是 犯罪 成 本 可 以 做 得 足够 高 ， 
从 而 阻止 大 多 数 人 侵 者 。 在 某 些 情况 下 ， 如 拒绝 服务 攻击 ， 防 止 攻击 是 最 好 的 ， 但 是 检测 到 
攻击 以 便 采 取 对 策 ， 也 足够 了 。 

为 了 保护 系统 ， 必 须 从 四 个 层次 上 采取 安全 措施 : 

© 物理 。 计 算 机 系统 的 场所 必须 物理 安全 ， 以 便 防止 入 侵 者 的 武装 或 偷袭 入 境 。 机 房 
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和 能 够 访问 机 器 的 终端 或 工作 站 ， 必 须 得 到 保护 。 

e 人 员 。 必 须 认 真 授权 ， 以 确保 只 有 合适 用 户 才 能 访问 系统 。 然 而 ， 即 使 授权 用 
户 ， 也 可 能 “鼓励 ”其 他 人 员 进 行 访 问 〈 例 如 换 来 贿赂 )。 他 们 也 可 能 通过 社会 工 
程 ( social engineering) 被 骗 ， 以 允许 访问 。 一 种 类 型 的 社会 工程 攻击 是 网 络 钓鱼 
(phishing)。 即 一 个 看 起 来 合法 的 电子 邮件 或 网 页 ， 误导 用 户 输入 机 密 信息 。 男 一 种 
技术 称 为 垃圾 桶 潜水 (dumpster diving)， 即 试图 收集 信息 以 获得 访问 未 经 授权 计算 机 
的 权限 (例如 ， 通 过 查看 垃圾 ， 查 找 电 话 敌 或 查找 包含 密码 的 笔记 本 等 )。 这 些 安全 
问题 是 管理 和 人 员 的 问题 ， 而 不 是 操作 系统 的 问题 。 

o 操作 系统 。 系 统 必须 保护 自己 ， 免 受 无 意 或 有 意 的 安全 违规 。 失 控 进 程 可 能 构成 了 

意外 的 拒绝 服务 攻击 。 服 务 查询 可 能 暴露 密码 。 堆 栈 溢 出 可 能 启动 未 经 授权 的 进程 。 
可 能 违规 的 列表 几乎 是 无 止境 的 。 

e 网络。 现代 系统 的 很 多 计算 机 数据 通过 私有 租用 线路 、 共 享 线 路 (如 互联 网 )、 无 线 
连接 或 拨号 线路 来 传播 。 拦 截 这 些 数据 与 人 侵 计算 机 一 样 ， 可 能 具有 同样 危害 。 中 
断 通信 可 能 构成 远程 拒绝 服务 攻击 ， 以 便 减少 用 户 对 系统 的 使 用 和 信任 。 

如 果 需 要 确保 操作 系统 的 安全 ， 则 必须 保证 前 两 个 级 别 的 安全 。 高 层 的 安全 弱点 (物理 
RAR) 允许 绕 过 严格 的 低层 的 安全 措施 (操作 系统 )。 因 此 ， 有 名 谚语 说 “一 条 链 与 它 最 
弱 的 环节 一 样 强 ”， 系 统 安 全 也 是 如 此 。 所 有 这 些 方面 都 必须 解决 ， 以 便 维护 安全 。 

此 外 ， 系 统 必 须 提供 保护 (第 14 章 )， 以 便 实 现 安全 功能 。 如 果 不 能 授权 用 户 和 进程 、 
控制 访问 权限 、 记 录 活 动 ， 则 操作 系统 就 不 可 能 实现 安全 措施 或 安全 运行 。 需 要 硬件 保护 功 
能 ， 以 支持 整体 保护 方案 。 例 如 ， 没 有 内 存 保护 的 系统 是 不 可 能 安全 的 。 正 如 我 们 将 会 讨论 
的 ， 新 的 硬件 功能 允许 系统 更 为 安全 。 

遗憾 的 是 ， 安 全 很 少 是 直接 的 。 因 为 人 侵 者 利用 安全 漏洞 ， 所 以 需要 创建 和 部 署 安全 对 
策 。 这 导致 人 侵 者 的 攻击 更 为 复杂 。 例 如 ， 最 近 的 安全 事件 包括 使 用 间谍 软件 ， 以 将 垃圾 邮 
件 传 到 无 就 的 系统 ( 15.2 节 讨 论 这 种 做 法 )。 这 种 猫 和 老鼠 的 游戏 很 可 能 还 会 继续 ， 需 要 更 
多 的 安全 工具 来 阻止 不 断 升 级 的 人 侵 技术 和 活动 。 

本 章 接 下 来 的 章节 讨论 网 络 和 操作 系统 级 别 的 安全 问题 。 物 理 和 人 员 级 别 的 安全 虽然 重 
要 ， 但 是 远 远 超出 了 本 书 的 范围 。 操 作 系统 内 和 操作 系统 间 的 安全 实现 方式 有 很 多 ， 包 括 从 
认证 密码 到 病毒 防护 ， 再 到 入 侵 检 测 。 下 面 首先 探讨 安全 威胁 。 


15.2 ”程序 威胁 


进程 与 内 核 一 起 ， 是 计算 机 完成 工作 的 唯一 方法 。 因 此 ， 编 写 程序 来 造成 安全 漏洞 或 
导致 正常 进程 改变 行为 且 造成 违规 ， 是 骇 客 的 共同 目标 。 事 实 上 ， 甚 至 大 多 数 非 程序 安全 事 
件 的 目标 也 是 导致 程序 威胁 。 例 如 ， 虽 然 没 有 授权 的 系统 登录 是 有 用 的 ， 但 是 更 可 用 于 留 下 
后 门 的 后 门 (back-door) 守护 进程 ， 以 便 提 供 信 息 或 允许 轻易 访问 〈 即 使 原来 漏洞 被 补 上 )。 
本 节 介 绍 几 种 方法 ， 能 让 程序 造成 安全 漏洞 。 请 注意 ， 安 全 漏洞 的 命名 约定 相当 多 ， 这 里 采 
用 最 为 常用 的 术语 。 


15.2.1 特洛伊 木马 


许多 系统 都 有 人 允许 用 户 编写 的 程序 由 其 他 用 户 执行 的 机 制 。 如 果 这 些 程序 的 执行 域 提供 
了 执行 用 户 的 访问 权限 ， 则 其 他 用 户 可 能 滥用 这 些 权 限 。 例 如 ， 文 本 编辑 器 程序 可 能 包含 代 
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码 ， 以 便 根据 特定 关键 字 搜 索 需 要 编辑 的 文件 。 如 果 找 到 ， 整 个 文件 可 能 复制 到 特殊 区 域 ， 
以 供 文本 编辑 器 的 创建 者 访问 。 误 用 环境 的 代码 段 称 为 特洛伊 木马 (Trojan horse)。 较 长 的 
搜索 路 径 (如 在 UNIX 系统 上 这 是 常见 的 ) 加 剧 了 特洛伊 木马 问题 。 当 给 定 一 个 模糊 程序 名 
称 时 ， 搜 索 路 径 通常 列 出 一 组 搜索 目录 。 在 路 径 中 搜索 目标 文件 ， 并 执行 它 。 搜 索 路 径 中 的 
所 有 目录 都 必须 是 安全 的 ， 否 则 特洛伊 木马 可 能 滑 入 用 户 路 径 并 意外 执行 。 

例如 ， 考 虑 搜索 路 径 的 字符 “.” 的 使 用 。 字 符 “.” 告 诉 shell， 搜 索 包 含 当前 目录 。 
因此 ， 如 果 用 户 的 搜索 路 径 包 含 字符 “.”， 并 且 设 置 他 的 当前 目录 为 朋友 的 目录 ， 然 后 输入 
正常 系统 命令 的 名 称 ， 则 可 以 从 朋友 的 目录 中 执行 这 个 命令 。 该 程序 将 在 用 户 的 域 中 执行 ， 
人 允许 程序 做 该 用 户 可 做 的 任何 事情 ， 包 括 删 除 用 户 的 文件 。 

特洛伊 木马 的 一 个 变 体 是 模拟 登录 的 程序 。 不 知情 的 用 户 从 终端 上 开始 登录 ， 并 注意 
到 显然 输 错 了 密码 。 他 再 次 尝试 ， 并 且 成 功 。 结 果 是 ， 小 偷 留 在 终端 上 运行 的 登录 模拟 器 偷 
走 了 用 户 认证 密 钥 和 密码 。 该 模拟 器 存储 密码 ， 输 出 登录 错误 消息 ， 接 着 退出 ; 然后 用 户 收 
到 一 个 真正 的 登录 提示 。 这 种 类 型 攻击 的 解决 方案 是 ， 操 作 系 统 在 结束 交互 式 会 话 时 输出 使 
用 消息 ， 或 采用 不 可 捕捉 的 击 键 序列 ， 如 所 有 现代 Windows 操作 系统 使 用 的 control-alt- 
delete 组 合 。 

特洛伊 木马 的 另 一 个 变 体 是 间谍 软件 (spyware)。 间 谍 软 件 有 时 伴随 用 户 选 择 安 装 的 程 
序 。 最 常见 的 是 ， 它 包含 在 免费 软件 或 共享 软件 中 ， 有 时 也 包含 在 商业 软件 中 。 间 谍 软 件 的 
目标 是 ， 下 载 广 告 以 显示 在 用 户 系统 上 ， 当 访问 特定 站 点 时 创建 弹出 浏览 窗口 ， 或 者 捕获 信 
息 并 发 到 一 个 中 央 站 点 。 后 一 种 做 法 是 隐蔽 通道 ( covert channel) 类 型 的 一 个 例子 。 例 如 ， 
在 Windows 系统 上 安装 一 个 看 似 无 害 的 程序 可 能 导致 加 载 间谍 软件 守护 进程 。 间 谍 软 件 可 
以 联系 中 央 站 点 ， 得 到 消息 和 收 件 人 地 址 列表 ， 并 从 Windows 机 器 上 向 这 些 用 户 发 送 垃圾 
邮件 。 这 个 进程 一 直 持 续 ， 直 到 用 户 发 现 间 谍 软 件 。 通 常 ， 间 谍 软 件 不 会 被 发 现 。 在 2010 
年 ， 估 计 有 90% 的 垃圾 邮件 都 是 通过 这 种 方法 来 发 送 的 。 这 种 服务 窃取 甚至 在 大 多 数 国家 
不 被 视 为 犯罪 行为 ! 

间谍 软件 是 宏观 问题 的 一 个 微小 例子 : 违反 最 低 特权 原则 。 在 大 多 数 情况 下 ， 操 作 系 统 
用 户 无 需 安 装 网 络 守 护 进程 。 这 些 守 护 进 程 的 安装 利用 了 两 种 错误 。 第 一 种 ， 用 户 可 能 采用 
多 于 必要 的 权限 (例如 ， 作 为 管理 员 )， 人 允许 运行 程序 拥有 多 于 必要 的 系统 访问 。 这 是 人 为 
错误 情况 ， 是 常见 的 安全 弱点 。 第 二 种 ， 操 作 系 统 可 能 默认 人 允许 多 于 正常 用 户 的 所 需 权限 。 
这 是 操作 系统 设计 决策 不 佳 的 情况 。 操 作 系统 〈 以 及 普通 软件 ) 应 该 允许 更 细 粒 度 的 访问 和 
安全 控制 ， 但 是 还 必须 易于 管理 和 理解 。 不 方便 或 不 充分 的 安全 措施 一 定 会 被 规避 ， 导 致 它 
们 被 设计 实现 时 安全 性 的 整体 削弱 。 


15.2.2 后 门 


程序 或 系统 的 设计 人 员 可 能 留 下 一 个 只 有 他 自己 才能 使 用 的 软件 漏洞 。 电 影 《 战 争 游 
戏 》 显 示 了 这 种 类 型 的 安全 违规 (或 后 门 (trap door))。 例 如 ， 这 种 代码 可 能 检查 特定 用 户 
ID 或 者 密码 ， 而 且 它 可 能 绕 过 正常 的 安全 程序 。 有 些 程序 员 被 捕 ， 因 为 他 们 在 代码 中 引入 
四 舍 五 人 错误 ， 并 偶尔 将 半 美 分 划 到 他 们 的 账户 ， 从 而 进行 贪污 。 考 虑 大 型 银行 进行 的 交易 
数量 ， 这 种 账户 的 款额 可 能 累积 成 一 个 很 大 金额 。 

编译 器 可 能 包含 一 个 巧妙 后 门 。 无 论 正 在 编译 的 源 代 码 如 何 ， 编 译 器 除了 生成 标准 的 目 
标 代 码 外 ， 还 会 生成 后 门 。 这 种 行为 尤其 恶意 ， 因 为 搜索 程序 源 代码 不 会 显示 任何 问题 。 只 
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有 编译 器 的 源 代码 才 会 包含 这 种 信息 。 
后 门 是 个 很 环 手 的 问题 ， 因 为 为 了 检测 它们 必须 分 析 所 有 系统 组 件 的 所 有 源 代码 。 鉴 于 
软件 系统 可 能 包含 数 百 万 行 代码 ， 这 种 分 析 并 不 常 做 ， 而 且 经 常 根本 不 做 ! 


15.2.3 ”逻辑 炸弹 


考虑 一 个 程序 ， 它 只 在 一 定 情况 下 启动 安全 事件 。 这 是 很 难 检测 的 ， 因 为 在 正常 操作 时 
没有 安全 漏洞 。 然 而 ， 当 满足 预先 定义 的 一 组 参数 时 ， 就 会 创建 安全 漏洞 。 这 种 情况 称 为 逻 
辑 炸弹 (logic bomb)。 例 如 ， 一 个 程序 员 可 能 编写 代码 来 检测 他 是 否 仍 然 受 雇 ; 如 果 没 有 ， 
则 生成 一 个 守护 进程 以 允许 远程 访问 ， 或 者 启动 代码 以 破坏 站 点 。 


15.2.4 ”堆栈 和 缓冲 区 溢出 


堆栈 或 缓冲 区 溢出 攻击 是 最 为 常见 的 方法 ， 可 让 系统 外 的 攻击 者 通过 网 络 或 拨号 连接 
来 获得 目标 系统 的 未 经 授权 的 访问 。 授 权 的 系统 用 户 也 可 以 使 用 这 种 漏洞 ， 以 求 特权 升级 
(privilege escalation ) 。 

本 质 上 ， 这 种 攻击 利用 程序 的 bug (错误 )。 这 种 bug 可 能 源 自 拙劣 编程 ， 如 程序 员 忽 
略 输入 字段 的 边界 检查 。 在 这 种 情况 下 ， 攻 击 者 发 送 的 数据 多 于 程序 期 望 的 数据 。 通 过 使 用 
试 错 或 者 通过 检查 攻击 程序 的 源 代 码 (如 果 有 )， 攻 击 者 确定 漏洞 ， 并 且 编 写 程序 执行 以 下 
操作 : 

1. 溢出 一 个 程序 (例如 网 络 守护 进程 ) 的 输入 字段 、 命 令 行 参数 或 输入 缓冲 区 ， 直 到 写 
AHRR o 

2. 利用 步骤 3 加 载 的 攻击 代码 的 地 址 ， 改 写 堆栈 的 当前 返回 地 址 。 

3. 为 堆栈 的 紧 接 的 下 一 空间 编写 一 组 简单 的 代码 ， 以 包括 攻击 者 希望 执行 的 命令 ， 例 
如 shell。 

这 种 攻击 程序 的 执行 结果 将 是 一 个 根 shell 或 其 他 特权 命令 执行 。 

例如 ， 如 果 网 页 表单 希望 输入 用 户 名 到 一 个 字段 ， 则 攻击 者 可 以 发 送 用 户 名 ， 加 上 额 
外 字符 来 溢出 缓冲 区 并 到 达 堆 栈 ， 加 上 一 个 新 的 返回 地 址 来 加 载 到 堆栈 上 ， 加 上 攻击 者 需要 
执行 的 代码 。 当 读 取 缓冲 的 子 程序 执行 返回 时 ， 返 回 地 址 是 攻击 代码 的 地 址 ， 并 执行 攻击 
代码 。 

下 面 深入 分 析 缓 冲 区 溢出 漏洞 。 考 虑 一 个 简单 的 C 程序 ， 如 图 15-2 所 示 。 这 个 程序 创 
建 一 个 长 为 BUFFER_SIZE 的 字符 数组 ， 并 且 复 制 命令 行 参数 argv[1] 的 内 容 。 只 要 这 个 参 
数 的 大 小 小 于 BUFFER_SIZE (我 们 需要 一 个 字 节 来 存 #include <stdio.h> 
储 空 终止 符 )， 这 个 程序 工作 正常 。 但 是 ， 如 果 命 令 行 #define BUFFER SIZE 256 
参数 的 大 小 大 于 BUFFER_SIZE， 考 虑 会 发 生 什么 。 在 int main(int argc, char *argv[]) 
这 种 情况 下 ， 函 数 strcpy() 将 从 argv[1] 中 开始 复 Y Oe buf fer [BUFFER.SIZE] ; 

制 ， 直 到 遇 到 一 个 空 终止 符 (0), RASET AD 





if (argc < 2) 





因此 ， 这 个 程序 会 有 潜在 的 缓冲 区 溢出 问题 ， 其 中 复 a -1; 
制 的 数据 溢出 buffer 数组 。 Bt vgv Lid 
请 注意 ， 说 慎 的 程序 员 可 以 通过 函数 strncpy() 而 





不 是 函数 strcpy() 来 执行 argv [1] 大 小 的 边界 检查 ， 利 } 
用 “strncpy(buffer，argv[1] ，sizeof (buffer)-1)) ;” 图 15-2 具有 缓冲 区 溢出 条 件 的 C 程序 
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置换 “strcpy (buffer,argv[1])”。 遗 憾 的 是 ， 好 的 边界 检查 是 例外 而 非 正常 。 

此 外 ,缺乏 边界 检查 不 是 图 15-2 所 示 程 序 行为 的 唯一 可 能 。 这 个 程序 可 以 精心 设计 ， 
以 影响 系统 的 完整 性 。 现 在 考虑 缓冲 区 溢出 的 可 能 的 安全 漏洞 。 

当 在 典型 的 计算 机 架构 上 调用 函数 时 ， 函 数 的 本 
地 定义 变量 (有 时 称 为 自 变 量 (automatic variable))、 i 
函数 的 传递 参数 、 函 数 退 出 时 的 控制 返回 地 址 等 都 存 
储 到 一 个 栈 帧 (stack frame)。 图 15-3 显示 了 一 个 典型 
栈 帧 的 布局 。 自 顶 向 下 分 析 栈 帧 ， 首先 是 函数 的 传递 ”增长 
参数 ; 随后 是 函数 声明 的 任何 自 变 量 ; 然后 是 栈 帧 指 
针 ， 这 是 栈 帧 的 起 始 地 址 ; 最 后 是 返回 地 址 ， 它 指明 
函数 退出 时 控制 返回 的 地 址 。 栈 帧 指针 必须 保存 在 堆 顶 
栈 上 ， 因 为 在 调用 函数 时 栈 帧 指针 可 以 变化 。 保 存 的 
栈 帧 指针 允许 相对 访问 参数 和 自 变 量 。 

给 定 这 个 标准 的 内 存 布局 ， 骇 客 可 以 执行 缓冲 区 溢出 攻击 。 他 的 目标 就 是 替代 栈 帧 内 的 
返回 地 址 ， 使 其 现在 指向 包含 攻击 程序 的 代码 段 。 

程序 员 首先 编写 一 个 简短 的 代码 段 ， 如 下 : 


#include <stdio.h> 


所 - 一 栈 帧 指针 





图 15-3 ”典型 的 栈 帧 布局 


int main(int argc, char *argv[]) 


execvp('*‘\bin\sh’’,**'\bin \sh'’, NULL); 
return 0; 


} 


利用 系统 调用 execvp() ， 这 个 代码 段 创 建 一 个 shell 进程 。 如 果 正 被 攻击 的 程序 按 系统 
范围 权限 来 运行 ， 则 这 个 新 创建 的 shell 会 获得 系统 的 完全 访问 。 当 然 ， 这 个 代码 段 可 以 做 
受 攻 击 进 程 许可 的 任何 事情 。 然 后 代码 段 被 编译 ， 以 使 汇编 语言 指令 可 被 修改 。 主 要 修改 是 
删除 不 必要 的 代码 功能 ， 从 而 减少 代码 大 小 ， 使 之 可 以 放 到 栈 帧 内 。 这 个 汇编 代码 段 现 在 是 
个 二 进 制 序列 ， 也 是 攻击 的 核心 。 

再 次 参见 图 15-2 所 示 的 程序 。 假 设 在 程序 中 调用 函数 main() 时 栈 帧 如 图 15-4a 所 示 。 
通过 调试 程序 ， 程 序 员 然后 找到 buffer [0] 的 堆栈 地 址 。 该 地 址 是 攻击 者 想 要 执行 代码 的 地 
址 。 这 个 二 进 制 序列 附加 必要 数量 的 NO-OP 指令 (用 于 空 操作 ) 来 填充 栈 帧 ， 直 到 返回 地 址 
的 位 置 ， 并 且 增 加 buffer [0] 的 位 置 作为 返回 地 址 。 攻 击 者 将 这 个 构建 的 二 进 制 序列 作为 进 
程 的 输入 ， 完 成 攻击 。 然 后 该 进程 从 argv[1] 将 二 进 制 序列 复制 到 栈 帧 的 buffer[0] 位 置 。 
现在 ， 当 控制 从 main() 返回 时 ， 不 是 返回 到 原先 指定 的 返回 地 址 ， 而 是 返回 到 修改 的 shell 
代码 ， 它 采用 受 攻 击 进程 的 访问 权限 来 运行 ! 图 15-4b 包含 修改 的 shell 代码 。 

有 很 多 方法 可 以 利用 潜在 的 缓冲 区 溢出 问题 。 在 这 个 例子 中 ， 我 们 考虑 了 受 攻击 程序 
(如 图 15-2 所 示 ) 采用 系统 权限 运行 的 可 能 性 。 然 而 ,一 旦 返回 地 址 的 值 被 修改 ， 运 行 的 代 
码 段 可 能 执行 任何 类 型 的 恶意 行为 ， 如 删除 文件 、 打 开 网 络 端口 以 便 深入 攻击 ， 等 等 。 

这 个 缓冲 区 溢出 的 例子 需要 大 量 的 知识 和 编程 技能 ， 以 便 识别 可 利用 的 代码 ， 然 后 加 
以 利用 。 不 过 ， 它 不 需要 让 伟大 的 程序 员 来 发 起 攻击 。 相 反 ， 骇 客 可 以 确定 错误 ， 然 后 编 
写 一 个 攻击 程序 。 具 有 基本 计算 机 技能 并 拥有 攻击 程序 的 任何 人 一 一 称 为 脚本 骇 客 ( script 
kiddie)， 都 能 试图 攻击 目标 系统 。 
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a) 之 前 b) 之 后 
图 15-4 图 15-2 的 假设 栈 帧 


缓冲 区 溢出 攻击 是 特别 致命 的 ， 因 为 它 可 以 在 系统 之 间 运 行 ， 也 可 以 通过 允许 连接 的 信 
道 来 流窜 。 这 种 攻击 可 能 出 现在 用 作 连 接 机 器 的 协议 内 ， 因 此 很 难 检测 和 防止 。 它 们 甚至 可 
以 绕 过 防火 墙 的 安全 措施 (参见 15.7 节 )。 

这 个 问题 的 一 个 解决 方案 是 ， 让 CPU 有 一 个 功能 ， 以 禁止 执行 存放 在 堆栈 内 的 代码 。 
Sun 的 最 新 版 本 的 SPARC 芯片 具有 这 种 设置 ， 而 且 最 近 版 本 的 Solaris 可 以 激活 这 种 设置 。 
溢出 程序 的 返回 地 址 仍 可 修改 ， 但 是 因为 返回 地 址 是 在 堆栈 中 的 ， 当 代码 尝试 执行 时 ， 就 会 
产生 异常 ， 程 序 由 于 发 生 错 误 而 中 止 。 

AMD 和 Intel x86 芯片 的 最 新 版 本 包括 NX 功能 ， 以 防止 这 种 类 型 的 攻击 。 多 个 x86 的 
操作 系统 (包括 Linux 和 Windows XP SP2 ) 都 支持 这 种 功能 。 硬 件 实现 涉及 在 CPU 页 表 中 
使 用 新 的 位 ， 这 个 位 标记 了 关联 页 面 不 可 执行 ， 以 便 指 令 不 能 从 中 读 取 并 执行 。 随 着 这 一 特 
性 的 普及 ， 缓冲 区 溢出 的 攻击 应 该 大 大 减少 。 


15.2.5 ”病毒 


程序 威胁 的 另 一 种 形式 是 病毒 (virus ) 。 病 毒 是 内 在 合法 程序 中 的 代码 片段 。 病 毒 可 以 
自我 复制 ， 旨 在 “感染 ”其 他 程序 。 病 毒 通过 修改 或 毁坏 文件 、 导 致 系统 月 省 和 程序 故障 等 
来 破坏 系统 。 与 大 多 数 的 渗透 攻击 一 样 ， 病 毒 是 针对 计算 机 架构 、 操 作 系 统 和 应 用 程序 的 。 
对 于 PC 用 户 ， 病 毒 是 个 特别 的 问题 。UNIX 和 其 他 多 用 户 操 作 系 统一 般 不 易 感 染病 毒 ， 因 
为 操作 系统 防止 可 执行 程序 的 写 和 人 。 即 便 病毒 感染 了 一 个 程序 ， 因 为 系统 的 其 他 方面 得 到 保 
护 ， 病 毒 的 能 力 通常 也 有 限 。 

病毒 通常 通过 电子 邮件 发 送 ， 垃 圾 邮件 是 最 为 常见 的 载体 。 当 用 户 从 因特网 共享 文件 服 
务 下 载 病毒 程序 或 交换 感染 病毒 的 磁盘 时 ， 病 毒 也 会 扩散 开 来 。 

病毒 传播 的 另外 一 种 常见 形式 是 使 用 Microsoft Office 文件 ， 如 Microsoft Word 文档 。 
这 些 文档 可 以 包含 宏 (macro) (HK Visual Basic 程序 )， 可 由 Office 套件 (Word, PowerPoint, 
Excel) 内 的 程序 自动 执行 。 因 为 这 些 程序 在 用 户 自己 的 账户 下 运行 ， 寡 可 以 很 大 程度 上 无 
约束 (例如 ， 随 意 删 除 用 户 文 件 )。 通 常 ， 病 毒 也 会 通过 电子 邮件 发 送 到 用 户 联系 人 列表 内 
的 其 他 用 户 。 下 面 是 一 段 代 码 示 例 ， 它 表明 编写 一 个 Visual Basic 宏 是 多 人 么 简单 ， 当 包含 宏 
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的 文件 打开 时 ， 病 毒 可 以 使 用 这 个 宏 来 格式 化 Windows 计算 机 的 硬盘 驱动 器 : 


Sub AutoOpen () 
Dim oFS 
Set oFS = CreateObject (''’Scripting.FileSystemObject’’) 
vs = Shell(’'c: command.com /k format c:'‘,vbHide) 
End Sub 


病毒 如 何 工作 ”一旦 病毒 到 达 目 标 机 器 ， 称 为 病毒 滴 管 〈 virus dropper) 的 程序 就 将 病 
毒 插入 系统 。 病 毒 滴 管 通常 是 特洛伊 木马 ， 它 因为 其 他 原因 而 执行 ， 但 是 安装 病毒 是 其 核心 
活动 。 一 旦 安装 后 ， 病 毒 可 以 有 许多 事情 可 做 。 病 毒 成 干 上 万 ,但 是 主要 分 为 几 个 主要 类 
别 。 请 注意 ， 许 多 病毒 可 能 属于 多 个 病毒 类 别 。 

© 文件 病毒 ( file virus)。 标 准 文件 病毒 通过 追加 自身 到 文件 来 感染 系统 。 它 改变 程序 

的 开始 地 址 ， 以 便 执 行 转 到 代码 。 在 执行 完毕 后 ， 它 返回 控制 到 程序 ， 从 而 隐蔽 自 
身 的 执行 。 文 件 病毒 有 时 称 为 寄生 病毒 ， 因 为 它们 没有 留 下 完整 的 文件 ， 并 使 宿主 
程序 仍 能 工作 。 

© 引导 病毒 (boot virus)。 引 导 病 毒 感染 系统 的 引导 扇 区 ， 它 的 执行 是 在 系统 引导 时 且 

在 操作 系统 加 载 之 前 。 它 监视 其 他 可 启动 的 媒介 并 感染 它们 。 这 些 病 毒 也 称 为 内 存 
病毒 ， 因 为 它们 没有 出 现在 文件 系统 中 。 图 15-5 说 明了 引导 病毒 如 何 工 作 。 








图 15-5 引导 扇 区 计算 机 病毒 
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e ATS (macro virus)。 大 多 数 病毒 是 用 低级 语言 编写 的 ， 如 汇编 语言 或 C 语言 。 宏 
病毒 是 用 高 级 语言 编写 的 ， 如 Visual Basic。 当 能 够 执行 宏 的 程序 运行 时 ， 这 些 病毒 
会 被 触发 。 例 如 ， 宏 病毒 可 能 包含 在 一 个 电子 数据 表格 文件 中 。 
o 源 代码 病毒 ( source code virus)。 源 代码 病毒 寻找 源 代码 ， 修 改 它 们 以 便 包含 病毒 并 
扩散 病毒 。 
e 多 态 病毒 (polymorphic virus)。 多 态 病毒 在 每 次 安装 时 都 会 发 生变 化 ， 以 防止 防 病 
毒 软件 的 检测 。 这 些 变化 不 是 影响 病毒 的 功能 ， 而 是 改变 病毒 签名 。 病 毒 签名 (virus 
signature) 是 用 于 识别 病毒 的 模式 ， 通 常 为 组 成 病毒 代码 的 一 系列 字 节 。 
e 加 密 病毒 ( encrypted virus)。 加 密 病 毒 包 括 解 密 代 码 和 加 密 病 毒 ， 也 是 为 了 避免 检 
测 。 病 毒 先 解 密 ， 再 执行 。 
o 隐形 病毒 (stealth virus)。 这 种 环 手 病毒 通过 修改 能 够 检测 它 的 系统 部 分 来 避免 检测 。 
例如 ， 它 可 以 修改 系统 调用 read， 当 它 修 改 的 文件 被 读 取 时 ， 返 回 原来 的 代码 而 不 
是 感染 的 代码 。 
e 隧道 病毒 (tunneling virus )。 这 种 病毒 通过 安装 自己 到 中 断 处 理 程序 链 中 ， 试 图 绕 过 
防 病毒 扫描 程序 的 检测 。 类 似 病毒 可 以 自动 安装 到 设备 驱动 程序 中 。 
e 复合 病毒 (multipartite virus)。 这 种 病毒 能 够 感染 系统 的 多 个 部 分 ， 包 括 引 导 启 区 、 
内 存 和 文件 。 因 此 检测 和 处 理 变 得 更 加 困难 。 
o 装甲 病毒 ( armored virus)。 这 类 病毒 在 编码 后 ， 很 难 被 反 病 毒 研究 人 员 破 解 和 理解 。 
它们 还 可 以 被 压缩 ， 以 逃避 检测 和 杀毒 。 另 外 ,通过 文件 属性 或 不 可 见 的 文件 名 ， 
病毒 滴 管 和 其 他 部 分 被 感染 的 完整 文件 常常 被 隐藏 。 
病毒 的 种 类 还 在 不 断 增加 。 例 如 ，2004 年 发 现 了 一 种 新 的 广泛 传播 的 病毒 。 它 的 操 
作 采 用 了 三 个 分 开 的 bug。 这 种 病毒 起 先 感染 了 数 百 个 运行 Microsoft Internet 信息 服务 
(IIS) 的 Windows 服务 器 (包括 许多 信任 站 点 )。 访 问 这 些 站 点 的 任何 易 受 攻击 的 Microsoft 
Explorer Web 浏览 器 ， 通 过 任何 下 载 而 收 到 浏览 器 病毒 。 这 些 浏 览 器 病毒 安装 了 多 个 后 门 程 
序 ， 包 括 击 键 记 录 器 (keystroke logger)， 它 记录 了 键盘 输入 的 所 有 内 容 (包括 密码 和 信用 卡 
号 )。 它 安装 了 一 个 守护 进程 ， 允 许 人 侵 者 的 不 设 限 远程 访问 ; 还 安装 了 一 个 监控 程序 ， 允 
许 人 侵 者 通过 已 被 感染 的 桌面 计算 机 来 发 送 垃圾 邮件 。 

一 般 来 说 ， 病 毒 是 最 具 破坏 性 的 安全 攻击 ; 因为 有 效 ， 它 们 将 继续 地 被 编写 和 扩散 。 计 
算 机 界 最 具 争 议 的 问题 是 单一 文化 ( monoculture)， 即 多 系统 运行 同样 的 硬件 、 操 作 系 统 或 
应 用 软件 。 据 说 这 种 单一 文化 包括 微软 产品 。 一 个 问题 是 ， 这 样 的 单一 文化 现在 是 否 仍然 存 
在 。 另 一 个 问题 是 ， 如 果 存 在 ， 它 是 否 增加 了 由 病毒 和 其 他 人 侵 带 来 的 威胁 和 破坏 。 


15.3 ”系统 和 网 络 的 威胁 


程序 威胁 通常 利用 系统 保护 机 制 的 故障 来 攻击 程序 。 相 比 之 下 ， 系 统 和 网 络 威胁 涉及 滥 
用 服务 和 网 络 连 接 。 系 统 和 网 络 威胁 造成 了 一 种 局 面 ， 导 致 滥用 操作 系统 资源 和 用 户 文件 。 
有 时 ， 系 统 和 网 络 攻击 用 于 启动 程序 攻击 ; 反之 亦 然 。 

操作 系统 越 开 放 ， 即 服务 启用 得 越 多 和 功能 允许 得 越 多 ，bug 可 利用 的 可 能 越 大 。 默 认 
情况 下 ， 操 作 系 统 越 来 越 安 全 (secure by default)。 例 如 ，Solaris 10 最 初 默认 启用 系统 安装 
的 许多 服务 (FTP、telnet 和 其 他 )， 现 在 禁用 系统 安装 的 几乎 所 有 服务 ， 如 需 启用 必须 由 系 
统管 理 员 具 体 指定 。 这 种 改变 减少 了 系统 的 攻击 面 (attack surface)， 即 攻击 者 可 以 尝试 进入 
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系统 的 一 套 方式 。 
在 本 节 的 其 余部 分 ， 我 们 讨论 系统 和 网 络 威 胁 的 一 些 示 例 ， 包 括 蠕虫 、 端 口 扫描 和 拒 [653] 
绝 服务 攻击 。 重 要 的 是 ， 要 注意 到 伪装 和 重 放 攻 击 通过 系统 之 间 的 网 络 也 可 常常 发 起 。 事 实 
上 ， 在 涉及 多 个 系统 时 ， 这 些 攻击 更 为 有 效 且 更 难 对 抗 。 例 如 ， 对 于 单个 计算 机 ， 操 作 系 统 
通常 可 以 确定 消息 的 发 送 方 和 接收 方 。 当 涉及 多 个 系统 (特别 由 攻击 者 控制 的 系统 ) 时 ， 这 
种 追踪 更 加 困难 。 
一 般 而 言 ， 可 以 说 认证 和 加 密 要 求 共享 秘密 (以 便 证 明 身 份 和 进行 加 密 )， 对 于 具有 安 
全 共享 方法 的 环境 (例如 单个 操作 系统 )， 共 享 秘密 更 加 容易 。 这 些 方法 包括 共享 内 存 和 进 
程 间 通 信 。15.4 WA 15.5 节 讨 论 安全 通信 和 身份 认证 。 


15.3.1 蠕虫 


蠕虫 (worm) 是 个 进程 ， 它 利用 繁殖 (spawn) 机 制 来 复制 本 身 。 蠕 虫 大 量 自我 复制 ， 
耗 尽 系统 资源 ， 也 可 能 锁定 所 有 其 他 进程 。 对 于 计算 机 网 络 ， 蠕 虫 的 影响 特别 大 ， 因 为 它们 
可 以 在 系统 之 间 自 我 复制 ， 从 而 使 整个 系统 准 疯 。1988 年 ， 这 样 的 事件 发 生 在 UNIX 系统 
上 ， 造 成 系统 和 系统 管理 员 的 时 间 损 失 高 达 数 百 万 美元 。 

在 1988 年 11 月 2 日 的 工作 日 结束 时 ， 康 奈 尔 (Cornell) 大 学 的 一 年 级 研究 生 Robert 
Tappan Morris, Jr. 释放 了 一 个 蠕虫 程序 到 连接 Internet 的 若干 主机 。 这 次 的 攻击 目标 是 运行 
版 本 4 BSD UNIXs 的 Sun Microsystems 的 Sun 3 工作 站 和 VAX 计算 机 ， 蜂 虫 以 极 快 速度 向 
远 处 蔓延 。 在 发 布 后 的 数 个 小 时 内 ， 蠕 虫 就 消耗 了 大 量 系统 资源 ， 致 使 感染 机 器 瘫痪 。 

虽然 Morris 设计 的 这 种 自我 复制 程序 可 以 快速 复制 和 分 发 ,但 UNIX 网 络 环 境 的 有 些 
功能 提供 了 在 系统 中 传播 蠕虫 的 机 制 Morris 最 初 选 择 感染 的 互联 网 主机 ， 很 可 能 是 开放 的 ， 
且 可 以 为 外 界 用 户 访 问 。 从 那里 ， 蠕 虫 程序 利用 了 UNIX 操作 系统 的 安全 程序 的 缺陷 ， 并 且 
利用 简化 局 域 网 资源 共享 的 UNIX 实用 工具 来 获得 数 以 千 计 站 点 的 未 授权 访问 。Morris 的 攻 
击 方法 简 述 如 下 。 

这 个 蠕虫 包括 两 个 程序 : 抓 钩 ( grappling hook) (也 称 为 引导 (bootstrap) 或 向 量 
(vector) ) 程序 和 主 程序 。 名 为 11.c 的 抓 钓 程 序 包 括 99 行 的 C 代码 ， 经 编译 可 运行 在 它 访 
问 的 每 台 机 器 上 。 一 旦 抓 钩 在 受到 攻击 的 计算 机 系统 上 得 以 创立 ， 它 就 连接 源 机 器 ， 并 上 传 
主 蠕虫 的 副本 到 新 建 抓 钓 的 系统 (图 15-6 )。 主 程序 继续 搜索 新 感染 系统 能 够 轻易 连接 的 其 
他 机 器 。 在 这 些 活动 中 ，Morris 利用 了 UNIX 网 络 实用 程序 rsh 来 轻松 执行 远程 任务 。 通 
过 设置 特殊 文件 来 包括 “主机 - 登录 名 ”列表 ， 用 户 在 每 次 使 用 列表 中 的 远程 账户 时 ， 不 再 [654 
需要 输入 密码 。 蜂 虫 在 这 些 特殊 文件 中 搜索 那些 不 需要 密码 也 允许 远程 登录 的 站 点 。 在 远程 
shell 创建 之 处 ， 蠕 虫 程 序 得 以 上 传 ， 并 且 开 始 新 一 轮 的 攻击 。 

通过 远程 访问 的 攻击 是 蠕虫 内 置 的 三 种 感染 方法 之 一 。 其 他 两 种 方法 涉及 UNIX 程序 
finger 和 sendmail 的 操作 系统 bug。 

程序 finge 的 功能 如 同 电话 目录 。 以 下 命令 


finger user-name@hostname 


返回 用 户 的 真实 姓名 和 登录 名 称 ， 以 及 用 户 提供 的 其 他 一 些 信息 ， 比 如 办 公 室 和 家 庭 的 地 
址 与 电话 、 研 究 计划 或 者 座右铭 等 。finger 在 BSD 机 器 上 以 后 台 程 序 (或 监控 程序 ) 来 运 
行 ， 并 响应 源 自 Internet 的 查询 。 里 虫 针 对 finger 进行 缓冲 区 溢出 攻击 。 该 程序 采用 精心 
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设计 的 长 度 为 536 字 节 的 字符 串 ， 查 询 finger， 以 便 溢出 输入 的 分 配 缓冲 区 并 重 写 栈 桢 。 
守护 进程 finger 不 是 返回 到 调用 Morris 之 前 的 main 程序 ， 而 是 路 由 到 入 侵 到 堆栈 的 536 
字 节 字符 串 内 的 程序 。 这 个 程序 执行 /bin/sh， 如 果 成 功 ， 蠕 虫 就 能 得 到 受 攻 击 机 器 的 远程 
shell, 


| 一 





15-6 Morris 的 Internet 蠕虫 


利用 sendmail 的 bug， 也 涉及 使 用 守护 进程 来 恶意 进入 。sendmail 发 送 、 接 收 和 路 
由 电子 邮件 。 这 个 工具 的 调试 代码 允许 测试 人 员 识别 并 显示 邮件 系统 的 状态 。 对 系统 管理 员 
而 言 ， 这 种 调试 选项 很 有 用 ， 常 被 保持 打开 。Morris 在 他 的 攻击 武器 中 包含 了 针对 调试 的 调 
用 ， 这 个 调用 没有 像 正常 测试 那样 指定 用 户 地 址 ， 而 是 发 出 一 组 命令 集 来 邮寄 和 执行 一 个 抓 
钩 程序 。 

一 旦 到 位 ， 蠕 虫 主 程序 系统 地 尝试 发 现 用 户 密码 。 它 开始 尝试 没有 密码 的 情况 ， 或 者 密 
码 由 账户 -用 户 名 组 合 而 成 的 情况 ; 接着 尝试 包含 432 个 最 常用 密码 的 内 部 字典 中 的 每 个 ; 
最 后 将 标准 UNIX 在 线 字典 的 每 个 单词 作为 可 能 密码 来 尝试 。 这 个 高 效 精巧 的 三 阶段 密码 
破解 算法 使 得 蠕虫 可 以 访问 感染 系统 的 其 他 账户 。 然 后 ， 蠕 虫 开始 搜索 这 些 新 的 破解 账户 的 
rsh 数据 文件 ， 如 前 所 述 利用 它们 来 访问 远程 系统 的 用 户 账 户 。 

针对 每 次 新 的 访问 ， 蠕 虫 程序 都 会 搜索 已 经 激活 的 本 身 副本 。 如 果 找 到 一 个 ， 则 除了 
第 7 个 实例 外 ， 新 的 副本 就 会 退出 。 如 果 蠕 虫 在 每 次 重复 情况 下 退出 ， 它 可 能 仍 未 被 发 现 。 
允许 第 7 份 副 本 继续 感染 (可 能 通过 诱骗 “ 假 ”蠕虫 来 努力 阻止 传播 )， 大 规模 地 感染 了 
Internet 上 的 Sun 和 VAX 系统 。 

有 助 于 蠕虫 繁殖 的 UNIX 网 络 环境 的 功能 ， 也 有 助 于 阻止 它 的 扩散 。 电 子 通信 的 便 
捷 、 复 制 源 文 件 与 二 进 制 文件 到 远程 机 器 的 机 制 、 源 代码 的 获得 以 及 人 员 的 专业 知识 等 ， 
通过 协作 来 快速 找到 解决 方案 。 到 了 第 二 天 (11 月 3 日 ) KE, 阻止 这 种 人 侵 程序 的 方法 
就 已 通过 Internet 传 到 各 个 系统 管理 员 。 几 天 之 内 ， 就 有 了 针对 这 个 安全 漏洞 的 具体 软件 
补丁 。 

为 什么 Morris 释放 蠕虫 ?” 这 个 事件 被 定性 为 : 既是 一 次 无 害 的 恶作剧 ， 又 是 一 次 严重 
的 刑事 犯罪 。 基 于 攻击 的 复杂 性 ， 蠕 虫 的 释放 或 传播 不 太 可 能 是 无 意 的 。 这 个 蠕虫 程序 精 
心 制作 了 一 些 步骤 来 掩盖 自身 踪迹 并 排除 传播 阻力 。 然 而 ， 程 序 没有 包含 代码 来 破坏 和 摧 
筑 感 染 系 统 。 作 者 显然 具有 包含 这 些 命令 的 专长 ， 实 际 上 ， 引 导 代 码 包含 数据 结构 ， 可 以 
用 来 传播 特洛伊 木马 或 者 病毒 程序 。 程 序 行为 可 能 导致 有 趣 的 观察 ， 但 是 它 没 有 提供 一 个 
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良好 基础 来 推断 动机 。 不 过 ， 无 需 猜 测 的 是 法 律 结果 : 联邦 法 院 宣判 Morris 有 罪 一 一 3 年 
缓刑 、400 小 时 的 社区 服务 以 及 10 000 美元 的 罚款 。Morris 的 诉讼 费 可 能 超过 了 100 000 
美元 。 

安全 专家 继续 评估 减少 或 消除 蠕虫 的 方法 。 然 而 ， 最 近 的 一 次 事件 表明 ， 蠕 虫 仍 在 因 
特 网 上 存在 。 它 也 说 明 ， 随 着 因特网 的 增长 ， 即 使 “无 害 ” 蠕 虫 的 破坏 性 也 日 益 增长 并 且 日 
益 重 要 。2003 年 8 月 出 现 了 这 个 例子 。 第 5 版 “Sobig” 蠕 虫 常 称 为 “W32.Sobig.F@mm”， 
由 未 知人 士 发 布 。 这 是 迄今 为 止 传播 最 快 的 蠕虫 ， 在 顶峰 时 感染 的 计算 机 多 达 数 十 万 台 ， 互 
联网 上 的 电子 邮件 每 17 个 就 有 一 个 感染 。 它 堵塞 了 邮箱 收 件 箱 ， 降 低 了 网 络 速度 ， 花 费 了 
大 量 时 间 来 清理 。 

通过 使 用 被 盗 信 用 卡 创建 的 账户 ，Sobig.F 被 上 传 到 色情 新 闻 组 。 它 伪装 成 照片 。 该 病 
毒 针对 Microsoft Windows 系统 ， 通 过 SMTP 引擎 发 送 自己 到 感染 系统 上 的 所 有 地 址 。 它 使 
用 各 种 主题 行 来 避免 检测 ， 包 括 “ 谢 谢 您 1”“ 详 情 ”“ 回 复 : 批准 ”等 。 它 也 采用 主机 上 的 
随机 地 址 作为 “ From : ”地 址 ， 从 而 根据 消息 难以 确定 哪个 机 器 是 感染 源 。Sobig.F 包括 : 
附件 以 便 目标 电子 邮件 读者 可 以 点 击 ， 以 及 各 种 各 样 的 名 字 。 如 果 这 个 附件 得 以 执行 ， 它 
保存 一 个 名 为 WINPPR32.EXE 的 程序 和 一 个 文本 文件 到 默认 Windows 目录 。 它 还 修改 了 
Windows 注册 表 。 

包含 在 附件 中 的 代码 还 定期 地 试图 与 每 20 个 服务 器 中 的 一 个 连接 ， 并 从 它们 那里 下 载 
和 执行 程序 。 幸 运 的 是 ， 服 务 器 在 下 载 代 码 之 前 就 被 禁用 。 这 些 服 务 器 的 程序 内 容 尚未 确 
定 。 如 果 代 码 是 恶意 的 ， 则 针对 大 量 机 器 的 伤害 可 能 难以 估计 。 


15.3.2 ”端口 扫描 


端口 扫描 不 是 攻击 ， 而 是 骇 客 为 了 攻击 系统 而 检测 漏洞 的 方法 。 端 口 扫描 通常 是 自动 
的 ， 采 用 工具 试图 创建 TCP/IP 连接 到 特定 端口 或 端口 范围 。 例 如 ,假设 sendmail 有 一 个 
已 知 的 漏洞 (或 错误 )。 骇 客 可 能 启动 端口 扫描 程序 来 试图 连接 一 个 特定 系统 或 一 系列 系统 
的 端口 25。 如 果 连 接 成 功 ， 骇 客 (或 工具 ) 就 能 尝试 与 应 答 服 务 通信 ， 以 确定 该 服务 是 否 确 
实 是 sendmail; 如 果 是 ， 它 是 否 是 带 有 bug 的 版 本 。 

现在 想象 一 个 工具 ， 它 编码 每 个 操作 系统 的 每 个 服务 的 每 个 bug。 该 工具 可 以 尝试 连 
接 到 一 个 或 多 个 系统 的 每 个 端口 。 对 于 每 个 应 答 服 务 ， 它 可 以 尝试 使 用 每 个 已 知 的 bug。 通 
常 ， 这些 bug 为 缓冲 区 洲 出 ， 人 允许 在 系统 上 创建 特权 指令 shell。 当 然 ， 骇 客 从 此 可 以 安装 
特洛伊 木马 、 后 门 程序 ， 等 等 。 

虽然 没有 这 种 工具 ,但 是 有 些 工具 可 以 完成 这 种 功能 的 子 集 。 例 如 ，nmap ( http://www. 
insecure.org/nmap/) 是 个 非常 通用 的 开源 的 实用 程序 ， 可 以 用 于 网 络 探 索 和 安全 审计 。 对 于 
针对 的 目标 ， 它 将 确定 哪些 服务 正在 运行 ， 包 括 应 用 程序 名 称 和 版 本 。 它 可 以 识别 主机 操作 
系统 。 它 还 可 以 提供 有 关 防 御 的 信息 ,例如 采用 什么 防火 墙 保护 目标 。 它 并 不 利用 任何 已 知 
的 bug。 

因为 端口 扫描 是 可 检测 的 (15.6.3 节 )， 所 以 它们 经 常 从 僵尸 系统 (zombie system) 发 
起 。 这 类 系统 是 之 前 攻破 的 、 独 立 的 系统 ， 当 它们 为 所 有 者 提供 服务 时 ， 还 用 于 恶意 目的 ， 
包括 拒绝 服务 攻击 和 垃圾 邮件 中 继 。 僵 尸 系统 使 得 骇 客 特别 难以 发 现 ， 因 为 确定 攻击 来 源 和 
发 起 人 员 是 非常 具有 挑战 性 的 。 这 是 不 仅 包 含 “有 价值 ”的 信息 或 服务 的 系统 必须 安全 ， 而 
且 “ 无 关 紧 要 ”的 系统 也 必须 安全 的 众多 原因 之 一 。 
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15.3.3 ”拒绝 服务 


如 前 所 述 ， 拒 绝 服务 的 攻击 目的 不 是 获取 信息 或 盗用 资源 ， 而 是 破坏 系统 或 设施 的 合法 
使 用 。 大 多 数 这 种 攻击 涉及 攻击 者 尚未 渗透 的 系统 。 发 动 攻 击 来 阻止 合法 使 用 ， 通常 要 比 入 
侵 机 器 或 设施 更 加 容易 。 

拒绝 服务 攻击 通常 是 基于 网 络 的 。 它 们 分 为 两 类 。 第 一 类 攻击 占用 非常 多 的 设施 资源 ， 
以 致 任何 有 用 工作 实质 上 都 不 能 做 。 例 如 ， 网 站 点 击 可 以 下 载 一 个 Java applet， 进 而 使 用 所 
有 可 用 的 CPU BY TA), 或 者 无 限制 地 弹出 窗口 。 第 二 类 涉及 破坏 网 络 设施 。 针 对 大 型 网 站 的 
拒绝 服务 的 成 功 攻 击 , 已 有 好 几 例 。 这 些 攻击 滥用 TCP/IP 的 一 些 基本 功能 。 例 如 ， 如 果 攻 
击 者 发 送 标准 协议 的 开始 部 分 ， 说 “我 想 要 开始 TCP 连接 ”， 但 是 从 不 发 送 标准 协议 的 剩余 
部 分 “连接 现 已 完成 "， 结 果 可 能 就 是 部 分 启动 的 TCP 会 话 。 如 果 发 起 了 足够 多 的 这 类 会 话 ， 
可 能 吃 掉 系统 的 所 有 网 络 资源 ， 禁 用 任何 进一步 的 合法 TCP 连接 。 这 些 攻击 可 能 持续 数 小 
时 或 数 天 ， 进 而 部 分 或 完全 阻止 合法 用 户 使 用 目标 设施 。 攻 击 通常 在 网 络 级 别 停止 ， 除 非 升 
级 操作 系统 以 便 减 少 漏洞 。 

一 般 来 说 ， 不 可 能 防止 拒绝 服务 攻击 。 这 些 攻击 采用 与 常规 操作 相同 的 机 制 。 更 难 防止 
和 解决 的 是 分 布 式 拒绝 服务 ( Distributed Denial of Service, DDoS) 攻击 。 这 些 攻击 是 通过 
僵尸 从 多 个 站 点 一 起 发 起 ， 针 对 一 个 共同 的 目标 。DDo5S 攻击 已 经 越 来 越 普遍 ， 并 且 有 时 关 
联 需 诈 尝 试 。 攻 击 者 在 攻击 了 一 个 网 站 后 ， 提 议 付款 来 停止 攻击 。 

有 时 ， 一 个 网 站 甚至 不 知道 它 已 遭受 攻击 。 可 能 难以 确定 系统 减速 的 原因 是 攻击 还 是 使 
用 激增 。 例如， 一 个 成 功 广 告 导 致 网 站 流量 大 增 ， 而 这 也 可 能 被 认为 是 DDoS。 

DoS 攻击 还 有 其 他 有 趣 之 处 。 例 如 ， 如 果 身 份 认证 算法 在 多 次 错误 访问 账户 后 就 会 锁定 
账户 一 段 时 间 ， 那 么 攻击 者 通过 故意 不 正当 地 尝试 访问 所 有 账户 ， 可 能 导致 所 有 身份 认证 得 
以 阻止 。 类 似 地 ， 自 动 阻止 某 些 类 型 流量 的 防火 墙 ， 可 能 会 被 诱导 阻止 其 他 流量 。 这 些 例子 
表明 ， 程 序 员 和 系统 管理 员 需 要 完全 理解 部 署 的 算法 和 技术 。 最 后 ， 计 算 机 科学 课程 是 系统 
DoS 攻击 的 臭名 远扬 的 意外 来 源 。 考 虑 学 生 学 习 如 何 创 建 子 进程 或 线程 的 第 一 个 编程 练习 。 
一 个 常见 的 bug 涉及 没完 没 了 地 衍生 子 进 程 ， 不 会 再 有 可 用 的 系统 内 存 和 CPU 资源 。 


15.4 ”作为 安全 工具 的 密码 术 


针对 计算 机 攻击 有 很 多 防御 措施 ， 包 括 方法 和 技术 。 系 统 设计 人 员 和 用 户 的 最 为 通用 的 
工具 是 密码 技术 。 本 节 讨 论 密码 术 及 其 在 计算 机 安全 方面 的 应 用 。 注 意 ， 这 里 讨论 的 密码 术 
出 于 教学 目的 已 经 简化 了 ， 提 醒 读者 慎 用 任何 一 种 这 里 描述 的 方案 到 现实 世界 。 好 的 密码 库 
有 很 多 ， 为 生产 应 用 打下 了 很 好 的 基础 。 

对 于 一 台 孤 立 的 计算 机 ， 操 作 系 统 能 够 可 靠 确定 所 有 进程 之 间 通 信和 的 发 送 方 和 接收 方 ， 
因为 它 控制 了 计算 机 的 所 有 通信 信道 。 对 于 计算 机 网 络 , 情况 相当 不 同 。 联 网 计算 机 从 网 线 
中 接收 位 流 ， 而 没有 及 时 的 可 靠 的 方法 来 确定 什么 机 器 或 应 用 程序 发 送 了 这 些 位 。 类 似 地 ， 
计算 机 发 送 位 流 到 网 络 ， 而 无 法 知道 哪个 可 能 最 终 接收 到 它们 。 另 外 ， 无 论 发 送 或 接收 ， 系 
统 都 无 法 知道 是 否 有 窃听 者 偷 听 通 信 。 

通常 ， 根 据 网 络 地 址 ， 可 以 推断 网 络 消息 的 潜在 发 送 者 和 接收 者 。 网 络 包 到 达 时 ， 找 
带 源 地 址 ， 例 如 IP 地 址 。 而 且 当 计算 机 发 送 消 息 时 ， 它 通过 目的 地 址 来 指定 预期 的 接收 者 。 
然而 ， 对 于 安全 重要 的 应 用 程序 ， 如 果 我 们 假设 数据 包 的 源 地 址 或 目的 地 址 可 靠 地 确定 发 送 
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者 或 接收 者 ， 则 是 自 找 麻烦 。“ 流 氓 ”计算 机 可 以 发 送 带 有 伪造 源 地 址 的 消息 ， 除 了 目的 地 
址 指定 的 计算 机 之 外 ， 众 多 计算 机 也 可 以 〈 确 实 如 此 ) 接收 这 种 消息 。 例 如 ， 通 往 目的 地 的 
途中 的 所 有 路 由 咒 都 能 收 到 这 个 数据 包 。 那 么 ， 当 无 法 信任 请 求 中 的 指定 来 源 时 ， 操 作 系 统 
如 何 决 定 是 否 授 予 请 求 ? 当 操作 系统 无 法 确定 谁 会 收 到 它 通过 网 络 发 送 的 回复 或 消息 内 容 
时 ， 它 又 如 何 为 请 求 或 数据 提供 保护 ? 

通常 认为 ， 建 立 任何 规模 的 网 络 以 致 数据 包 的 源 地 址 和 目的 地 址 可 以 相互 可 信和 是 不 可 行 
的 。 因 此 ， 唯 一 的 选择 是 ， 通 过 某 种 方式 消除 信任 网 络 的 需要 。 这 是 密码 术 的 工作 。 简 要 地 
ii, BAA (cryptography) 用 于 限制 消息 的 潜在 发 送 者 或 接收 者 。 现 代 密 码 术 基于 称 为 密 钥 
(key) 的 秘密 ， 它 们 有 选择 地 分 布 到 网 络 并 用 于 处 理 消息 。 密 码 术 使 得 消息 接收 者 能 够 验证 
该 消息 是 否 来 自 某 人 台 持 有 特定 密 钥 的 计算 机 。 类 似 地 ， 发 送 者 可 以 加 密 消息 ， 以 致 只 有 有 具有 
一 定 密 钥 的 计算 机 才能 解密 消息 。 然 而 ， 与 网 络 地 址 不 同 ， 攻 击 者 无 法 通过 密 钥 生 成 的 消息 
或 其 他 公共 信息 来 推算 密 钥 。 因 此 ， 它 们 提供 了 更 加 可 靠 的 手段 来 约束 消息 的 发 送 者 和 接收 
者 。 请 注意 ， 密 码 术 本 身 就 是 一 个 研究 领域 ， 具 有 或 大 或 小 的 复杂 度 和 微妙 之 处 。 这 里 ， 探 
讨 了 操作 系统 相关 的 最 为 重要 的 密码 术 部 分 。 


15.4.1 加密 


mE (encryption) 解决 了 各 种 通信 安全 问题 ， 经 常用 于 现代 计算 的 许多 方面 。 它 通过 
网 络 来 安全 发 送 消息 ， 保 护 数据 库 数 据 ， 甚 至 保护 整个 磁盘 以 免 未 经 授权 实体 来 读 取 内 容 。 
加 密 算 法 能 使 消息 发 送 者 确保 只 有 持 有 特定 密 钥 的 计算 机 才能 读 取消 息 ， 或 者 确保 数据 作者 
才 是 唯一 的 数据 读者 。 当 然 ， 消 息 加 密 历史 悠久 ， 现 在 已 有 许多 加 密 算法 。 本 节 讨 论 重要 的 
现代 加 密 的 原理 和 算法 。 

加 密 算法 包括 如 下 部 分 : 

e 一 个 密 钥 集合 天 。 
一 个 消息 集合 M。 
一 个 密 文集 合 Co 
一 个 加 密 函 数 E: K 一 ( M 一 C)。 也 就 是 说 ， 对 于 每 个 上 E KK， 是 个 函数 ， 用 于 根 
据 消 息 生 成 密 文 。E 和 对 于 任意 的 都 应 是 高 效 的 可 计算 函数 。 一 般 来 说 ，Ei 是 
从 消息 到 密 文 的 随机 映射 。 
一 个 解密 函数 D: K 一 (C 一 M)。 也 就 是 说 ， 对 于 每 个 上 EK, Dy 是 个 函数 ， 用 于 根 
据 密 文生 成 消息 。D 和 对 于 任意 大 的 Di 都 应 是 高 效 的 可 计算 函数 。 

加 密 算法 应 该 提供 的 基本 属性 是 : 给 定 一 个 密 文 c E C, 计算机 只 有 拥有 上 才能 算出 m, 
以 便 满足 Em) = c。 因 此 ， 持 有 大 的 计算 机 能 够 解密 密 文 以 便 得 到 相应 的 明文 ， 但 是 不 持 有 
大 的 计算 机 不 能 解密 密 文 。 由 于 密 文 通常 是 暴露 的 (例如 ， 通 过 网 络 发 送 )， 重 要 的 是 不 可 能 
从 密 文 中 导出 ko 

加 密 算法 分 为 两 种 主要 类 型 : 对 称 的 和 非 对 称 的 。 下 面 讨论 它们 。 
15.4.1.1 对称 加 密 

对 于 对 称 加 密 算法 (symmetric encryption algorithm)， 同 样 的 密 钥 用 于 加 密 和 解密 。 因 
此 , 大 必须 保密 。 图 15-7 显示 了 两 个 用 户 利用 非 安 全 信道 通过 对 称 加 密 来 安全 通信 的 一 个 例 
子 。 注 意 ， 密 钥 交 换 可 以 在 两 个 实体 之 间 直 接 进行 ， 或 者 通过 可 信 的 第 三 方 ( 即 证 书 授权 机 
构 ) 来 进行 ， 如 15.4.1.4 节 所 述 。 
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图 15-7 非 安 全 媒介 的 安全 通信 


在 过 去 的 几 十 年 里 ， 用 于 美国 民用 领域 的 最 常用 的 对 称 加 密 算法 是 数据 加 密 标准 (Data 
Encryption Standard，DES)， 它 是 美国 国家 标准 和 技术 协会 (NIST) 的 标准 。DES 的 工作 包 
括 采 用 64 位 值 和 56 位 密 钥 ， 执 行 基于 替代 和 置换 的 一 系列 操作 。 因 为 DES 一 次 处 理 一 个 
位 块 ， 称 之 为 块 加 密 (block cipher)， 它 的 变换 是 典型 的 块 加 密 。 对 于 块 加 密 ， 如 果 同 样 的 
密 钥 用 于 加 密 大 量 数据 ， 它 容易 受到 攻击 。 

对 于 许多 应 用 ，DES 现在 被 认为 是 不 安全 的 ， 因 为 通过 中 等 资源 的 计算 可 以 利用 穷尽 
法 来 搜索 密 钥 。( 注 意 ， 它 仍然 经 常 使 用 。) NIST 不 是 放弃 DES， 而 是 创建 称 为 三 重 DES 

(triple DES) 的 修改 。 对 于 三 重 DES， 针 对 同一 明文 采用 两 个 或 三 个 密 钥 ，DES 算法 重复 了 
三 次 (两 次 加 密 和 一 次 解密 )， 例 如 c = Ba(CDa(CEn(z)))。 当 采用 三 个 密 钥 时 ， 有 效 密 钥 长 度 
为 168 位 。 三 重 DES 现在 应 用 很 广 。 

2001 年 ，NIST 采 用 了 一 种 新 的 块 加 密 称 为 高 级 加 密 标 准 (Advanced Encryption 
Standard, AES) 一 一 来 代替 DES, AES 是 男 一 种 块 加 密 。 它 可 以 使 用 的 密 钥 长 度 为 128 位 、 
192 位 及 256 位 ， 处 理 长 为 128 位 的 块 。 一 般 说 来 ， 这 种 算法 紧凑 且 高 效 。 

块 加 密 本 身 不 是 安全 的 加 密 方案 。 特 别 是 ， 它 们 并 不 直接 处 理 比 块 更 长 的 消息 。 然 而 ， 
有 许多 加 密 模 式 (mode of encryption)， 它 们 基于 流 加 密 ， 可 以 安全 地 加 密 更 长 的 消息 。 

RC4 可 能 是 最 常见 的 流 加 密 。 流 加 密 (stream cipher) 旨 在 加 密 和 解密 字 节 流 或 位 流 ， 
而 不 是 块 。 当 通信 长 度 可 能 使 得 块 加密 太 慢 时 ， 这 很 有 用 。 密 钥 输入 到 伪 随 机 位 的 生成 器 ， 
这 是 用 来 生成 随机 位 的 算法 。 当 得 到 密 钥 时 ， 生 成 器 的 输出 是 密 钥 流 。 密 钥 流 ( keystream ) 
是 个 密 钥 的 无 穷 集 合 ， 通 过 简单 地 与 明文 进行 异 或 ， 它 可 以 加 密 明文 流 。( 异 或 (XOR, 
eXclusive OR) 是 一 个 比较 两 个 输入 位 并 生成 一 个 输出 位 的 操作 。 如 果 两 个 输入 位 相同 ， 结 
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RA 0; 如 果 不 同 ， 结 果 为 1。)RC4 用 于 加 密 数 据 流 ， 如 无 线 局 域 网 协议 的 WEP。 遗 憾 的 是 ， 
当 RC4 用 于 WEP (IEEE 标准 802.11 ) 时 ， 经 过 一 定量 的 计算 时 间 ， 它 可 被 破解 。 事 实 上 ， 
RC4 本 身 就 有 漏洞 。 
15.4.1.2” 非 对 称 加 密 

非 对 称 加 密 算法 (asymmetric encryption algorithm) 具有 不 同 的 加 密 密 钥 与 解密 密 钥 。 
准备 接收 加 密 通信 的 实体 创建 两 个 密 钥 ， 并 且 使 得 其 中 之 一 ( 称 为 公 钥 ) 可 供 任何 想 要 的 人 
使 用 。 任 何 发 送 者 可 以 使 用 这 个 密 钥 来 加 密 通 信 ， 但 是 只 有 密 钥 创建 者 才 可 以 解密 通信 。 这 
个 方案 称 为 公 钥 加 密 (public-key encryption)， 是 加 密 技术 的 突破 。 密 钥 不 再 必须 保密 以 及 
安全 传递 。 相 反 ， 任 何人 都 可 以 加 密 消息 给 接收 实体 ,无论 是 谁 在 听 ， 只 有 那个 实体 〈 持 有 
私 钥 ) 可 以 解密 消息 。 

作为 公 钥 加 密 的 一 个 例子 ， 我 们 介绍 称 为 RSA 的 算法 ， 它 由 Rivest、Shamir 和 
Adleman 三 位 发 明 。RSA 是 应 用 最 广 的 非 对 称 加 密 算法 。( 然 而 ， 基 于 椭圆 曲线 的 算法 正在 
取得 进展 ， 因 为 对 于 同样 强度 的 加 密 ， 这 种 算法 的 密 钥 长 度 可 以 更 短 。) 

在 RSA tF, ke 是 公 钥 (public key), ka tt FA$A (private key), N 是 两 个 较 大 的 随机 选择 
的 素数 p 和 9g 的 乘积 〈 例 如,，P 和 9 都 有 512 位 )。 根 据 ke NIT ka N 必须 是 不 可 行 的 ， 这 
样 态 无 需 保密 ， 并 且 可 以 广泛 传播 。 加 密 算 法 是 本 (m) = m mod N, HP ke WAE keka 
mod (p - 1)(q-1)=1. 而 解密 算法 是 Diw(c) = c* mod No 

图 15-8 的 例子 采用 较 小 数值 。 在 这 个 例子 中 , p = 7, gq = 13。 可 以 算出 N=7x13= 91 
与 (p -1)(g -1)=72。 接 下 来 选择 及 ， 它 小 于 
72， 并 与 72 互 为 素数 ， 得 到 5。 最 后 ， 计 算出 
ka, Wiki keka mod 72 = 1， 得 到 29。 现 在 我 们 有 
了 自己 的 密 钥 : AHA, N= 5, 91， 而 私 钥 ky, N= 
29, 91。 用 公 钥 加 密 消 息 69， 得 到 消息 62， 然 后 
接收 方 通过 私 钥 可 以 解密 它 。 

采用 非 对 称 加密 从 公布 目的 地 的 公 钥 开始 。 
对 于 双向 通信 ， 源 头 还 必须 公布 它 的 公 和 钥 。“ 公 
布 ” 可 以 像 递交 电子 密 钥 一 样 简单 ， 或 者 也 可 能 
更 复杂 。 私 钥 (或 “秘密 的 密 钥 ”) 必须 精心 保护 ， 
任何 持 有 该 密 钥 的 人 都 能 解密 由 匹配 公 钥 创建 的 
任何 消息 。 

应 该 注意 ， 对 称 加 密 与 非 对 称 加 密 之 间 的 密 
钥 用 法 似乎 差别 很 小 ， 但 是 实际 差别 相当 大 。 执 
行 非 对 称 加 密 的 计算 量 非常 昂贵 。 用 普通 对 称 算 
法 来 加 密 和 解密 比 用 非 对 称 算法 要 快 得 多 。 那 么 
为 什么 使 用 非 对 称 算法 ? 实际 上 ， 这 些 算法 并 不 
用 于 大 量 数据 的 普通 用 途 的 加 密 。 然 而 ， 它 们 不 
仅 用 于 加 密 少 量 数据 ， 还 用 于 认证 、 保 密 和 密 钥 
分 发 ， 下 面 讨论 这 些 内 容 。 
15.4.1.3 ”认证 

我 们 已 经 知道 ， 加 密 提供 了 一 种 方式 来 限制 ”图 15-8 RSA 非 对 称 密码 系统 的 加 密 和 解密 
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消息 可 能 接收 者 的 集合 。 限 制 潜 在 的 消息 发 送 者 的 集合 称 为 认证 (authentication)， 因 此 认证 
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是 加 密 的 补充 。 认 证 也 可 用 于 证 明 消 息 未 被 修改 。 本 节 讨 论 将 认证 视 作 限制 消息 的 可 能 发 送 
者 。 请 注意 ， 这 样 的 认证 类 似 于 但 不 同 于 用 户 认 证 ( 见 15.5 节 )。 

认证 算法 使 用 对 称 密 钥 ， 包 括 以 下 部 分 : 

e 一 个 密 钥 集合 K。 
一 个 消息 集合 M。 
一 个 认证 者 集合 4。 
一 个 函数 5S: K 一 (M 一 4)。 也 就 是 说 ， 对 于 每 个 EK，Si 是 个 函数 ， 用 于 根据 消 
息 产生 认证 者 。S 和 对 于 任意 上 的 Sy 必须 是 高 效 的 可 计算 函数 。 
一 个 函数 让 KK 一 (Mx4 一 {true，false})。 也 就 是 说 ， 对 于 每 个 上 Ek， 所 是 个 
函数 ， 用 于 验证 消息 的 认证 者 。 玉 和 对 于 任意 大 的 Ve 必须 是 高 效 的 可 计算 函数 。 

认证 算法 必须 拥有 的 关键 属性 是 : 对 于 消息 m， 仅 当 拥 有 时， 计算 机 能 够 生成 认证 者 
a E 4 使 得 Vi(m, a) = true。 因 此 ， 持 有 上 的 计算 机 能 够 产生 消息 的 认证 者 ， 以 致 持 有 上 的 
任何 计算 机 能 够 验证 它们 。 然 而 ， 没 有 持 有 大 的 计算 机 无 法 产生 可 以 用 验证 的 消息 认证 
者 。 因 为 认证 者 通常 是 暴露 的 (例如 ， 它 们 跟随 消息 被 发 送 到 网 络 )， 所 以 根据 认证 者 推测 
HA DEAR ATTA. SEE, WR Vi(m, a) = true， 则 我 们 知道 m 没有 被 修改 ， 而 且 消 息 发 
送 者 有 k。 如 果 我 们 只 与 一 个 实体 共享 kx， 那么 我 们 知道 消息 来 自 。 

正如 有 两 类 加 密 算法 一 样 ， 主 要 也 有 两 类 认证 算法 。 理 解 这 些 算 法 的 第 一 步 是 分 析 哈 希 
函数 。 哈 希 函 数 (hash function) H(m) 根据 消息 m 创建 一 个 小 的 、 固 定 大 小 的 数据 块 ， 称 为 
报 文摘 要 (message digest) 或 哈 希 值 (hash value)。 哈 希 函 数 的 工作 是 ， 利 用 消息 拆 分 成 块 ， 
处 理 块 以 产生 位 的 哈 希 值 。 五 必须 抵抗 碰撞 ， 也 就 是 说 ， 找 到 m A m 满足 Hm) = H(m') 
是 不 可 行 的 。 现 在 ， 如 果 Hn) = Hm), RAGE m = m'， 也 就 是 说 ,我们 知道 该 消息 未 被 
修改 。 常 见 的 消息 摘要 函数 包括 MD5 和 SHA-1。MD5 现在 被 认为 是 不 安全 的 ， 产 生 一 个 
128 位 哈 希 值 ，SHA-1 产生 160 位 哈 希 值 。 消 息 摘要 可 用 于 检测 邮件 更 改 ， 但 不 适用 于 检测 
认证 者 。 例 如 ，H(m) 可 以 与 消息 一 起 发 送 ,， 但 是 如 果 五 已 知 ， 则 可 以 修改 mA m, HEY 
计算 H(m')， 这 样 消息 修改 不 会 被 检测 到 。 因 此 ， 我 们 必须 认证 H(m)。 

第 一 大 类 认证 算法 采用 对 称 加 密 。 在 消息 认证 码 ( Message Authentication Code, MAC) 
中 ， 采 用 秘密 密 钥 ， 加 密 消 息 以 生成 校 验 和 。MAC 提供 了 一 种 方法 ， 以 安全 地 认证 短 的 
值 。 如 果 我 们 采用 它 来 认证 H(m)， 这 里 互 抵抗 碰撞 ， 那 么 我 们 通过 蛤 希 得 到 一 种 方法 来 
安全 地 认证 长 消息 。 注 意 ， 需 要 上 来 计算 % 和 瓜 ， 所 以 任何 人 能 够 计算 一 个 就 可 以 计算 另 
aad 

第 二 大 类 认证 算法 是 数字 签名 算法 (digital signature algorithm)， 由 此 产生 的 认证 者 称 
为 数字 签名 (digital signature)。 数 字 签名 非常 有 用 ， 因 为 它们 能 让 任何 人 来 验证 消息 的 真实 
性 。 在 数字 签名 算法 中 ， 从 ,导出 的 计算 是 不 可 行 的。 因此 ,是 公 钥 ,是 私 钥 。 

现在 举例 说 明 RSA 数字 签名 算法 。 它 类 似 于 RSA 加 密 算法 ,但 是 密 钥 用 途 是 相反 的 。 
通过 计算 Si(m) = H(m) mod N， 得 到 消息 的 数字 签名 。 密 钥 又 是 一 个 有 序 对 (d, N), N 
是 两 个 很 大 的 随机 选择 的 素数 p、g 的 乘积 。 验 证 算法 是 Vim, a)2 (a mod N= Hm), 其 中 
,满足 条 件 kk mod (p - 1)(q-1)=1. 

请 注意 ， 加 密 和 认证 可 以 一 起 或 分 开 使 用 。 例 如 ， 有 时 我 们 需要 认证 但 不 需要 保密 。 例 
如 ,一 家 公司 可 以 提供 一 个 软件 补丁 ， 并且 可 以 “签署 ”这 个 补丁 以 便 证 明确 实 来 自 公 司 而 
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且 未 被 修改 。 

认证 是 众多 安全 方面 的 一 个 组 件 。 例 如 ， 数 字 签 名 是 不 可 否认 (nonrepudiation) 的 核 
心 ， 用 于 提供 实体 执行 操作 的 证 明 。 典 型 的 不 可 否认 的 例子 涉及 填写 电子 表格 表单 ， 以 替代 
纸张 合同 的 签署 。 不 可 否认 确保 填写 电子 表格 的 人 员 不 能 和 否认 这 样 做 过 。 
15.4.1.4 BADR 

当然 ， 加 密 人 员 (发 明 密码 ) 和 解密 人 员 (试图 破解 密码 ) 之 间 的 争斗 的 很 大 部 分 涉及 
密 钥 。 对 于 对 称 算 法 ， 双 方 都 需要 密 钥 ， 没 有 其 他 人 员 应 该 拥有 密 钥 。 对 称 密 钥 的 传递 是 一 
个 巨大 的 挑战 。 有 时 ， 这 通过 带 外 (out-of-band) 来 完成 ， 即 通过 纸 质 文件 或 交谈 。 然 而 ， 
这 种 方法 不 能 规模 化 。 还 要 考虑 密 钥 管理 的 挑战 。 假 设 一 个 用 户 想 与 Y 个 其 他 用 户 秘密 通 
信 。 这 个 用 户 要 有 N 个 密 钥 ， 而 且 为 了 更 加 安全 起 见 ， 可 能 还 要 经 常 更 换 这 些 密 钥 。 

这 些 正 是 需要 创建 非 对 称 密 钥 算法 的 原因 。 这 些 密 钥 不 仅 可 以 公开 交换 ， 而 且 给 定 用 户 
无 论 想 与 多 少 其 他 人 员 通 信 ， 只 需 一 个 私 钥 。 还 有 问题 涉及 为 每 个 通信 接收 方 管理 公 钥 ; 但 
是 ， 因 为 公 钥 无 需 保密 ， 密 钥 圈 (key ring) 可 以 采用 简单 存储 。 

遗憾 的 是 ， 即 便 是 公 钥 的 发 布 也 需要 小 心 。 考 虑 一 下 如 图 15-9 所 示 的 中 间 人 攻击 。 其 
中 ， 想 要 接收 一 个 加 密 消息 的 人 发 出 他 的 公 钥 ,但 一 个 攻击 者 也 发 出 她 的 “ 坏 ” 公 钥 (与 她 
的 私 钥 匹 配 )。 想 发 出 加 密 消息 的 人 并 不 知道 ， 所 以 使 用 坏 公 钥 加 密 消息 。 然 后 ， 攻 击 者 高 
兴 地 解密 它 。 





图 15-9 非 对 称 密码 系统 中 间 人 攻击 
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这 个 问题 属于 认证 ， 即 我 们 需要 的 是 关于 谁 (或 什么 ) 拥有 公 钥 的 证 明 。 解 决 这 个 问题 
的 一 种 方法 涉及 使 用 数字 证 书 。 数 字 证 书 (digital certificate) 是 由 可 信 方 数字 签名 的 公 钥 。 
可 信任 的 一 方 接收 某 个 实体 身份 的 证 明 ， 并 且 证 明 这 个 公 钥 属于 该 实体 。 但 是 我 们 怎么 知 
道 ， 我 们 可 以 信任 验证 者 呢 ? 这 些 证 书 颁 发 机 构 (certificate authority) 拥有 公 钥 ， 在 分 布 之 
前 包括 在 网 络 浏览 器 (和 其 他 证 书 客户 ) 中 ; 它们 可 以 认证 担保 其 他 机 构 (数字 签名 这 些 其 
他 机 构 的 公 钥 ) 等 ， 创 建 信任 网 。 这 些 证 书 可 以 采用 数字 证 书 格式 标准 X.509 来 分 布 ， 可 由 
计算 机 来 解析 。 这 种 方案 用 于 安全 Web 通信 ， 将 在 15.4.3 节 中 加 以 讨论 。 


15.4.2 ”密码 术 的 实现 


网 络 协议 通常 按 层 (layer) 来 组 织 ， 如 洋葱 或 者 冷藏 室 ， 每 层 作为 它 的 低 一 层 的 客户 。 
也 就 是 说 ， 当 一 个 协议 实体 生成 消息 ， 以 便 发 送 到 另外 一 台 机 器 的 协议 的 对 等 实体 时 ， 它 
传递 这 个 消息 到 网 络 协议 栈 中 的 低层 协议 ， 以 便 发 送 到 另 一 台 机 器 的 对 等 实体 。 例 如 ， 对 于 
IP 网 络 ，TCP (一 种 传输 层 协议 ) 充当 IP (一 种 网 络 层 协议 ) 的 客户 端 : TCP 数据 包 传递 到 
IP， 以 便 发 送 到 连接 的 另 一 端的 IP 对 等 实体 。IP 封装 TCP 包 到 IP 包 , 该 全 包 同 样 传递 到 
数据 链 路 层 ， 以 便 通 过 网 络 传输 到 目的 计算 机 的 对 等 实体 。 在 目的 计算 机 上 ，IP 对 等 实体 然 
后 提交 TCP 包 到 TCP 对 等 实体 。 

密码 术 几 乎 可 以 插入 OSI 模型 的 任何 层 。 例 如 ，SSL ( 15.4.3 节 ) 在 传输 层 上 提供 安全 。 
网 络 层 安全 一 般 已 经 标准 化 ， 即 IPSec， 它 定义 了 了 王 包 格式 ， 以 允许 插入 认证 者 和 加 密 数 据 
包 内 容 。IPSec 使 用 对 称 加 密 ， 而 密 钥 交换 使 用 互联 网 密 钥 交换 (Internet Key Exchange, IKE) 
协议 。IKE 基于 公 钥 加 密 。IPSec 日 益 广泛 地 用 于 虚拟 专用 网 Virtual Private Networks, 
VPN)， 这 里 两 个 IPSec 端点 之 间 的 所 有 通信 被 加 密 ， 从 而 利用 公共 网 络 来 形成 私有 网 络 。 
许多 协议 也 被 开发 用 于 应 用 程序 的 使 用 ， 如 加 密 电子 邮件 的 PGP， 但 是 应 用 程序 本 身 必 须 纺 
码 来 实现 安全 。 

加 密 保 护 最 好 放 在 协议 栈 的 哪里 ? 一 般 来 说 ， 没 有 明确 的 答案 。 一 方面 ， 更 多 协议 受 
益 于 协议 栈 的 低层 的 保护 。 例 如 ， 因 为 IP 包 封装 了 TCP 包 ，IP 包 的 加 密 (例如 使 用 IPSec) 
也 隐藏 了 封装 的 TCP 包 的 内 容 。 类 似 地 ，IP 包 的 认证 者 检测 包含 的 TCP 包 信息 的 更 改 。 

另 一 方面 ， 协 议 栈 中 的 较 低 层 的 保护 可 能 不 足以 保护 更 高 层 协议 。 例 如 ， 接 受 IPSec 加 
密 连 接 的 应 用 程序 服务 器 可 以 认证 发 送 请 求 的 客户 计算 机 。 然 而 ， 为 了 认证 客户 计算 机 的 
用 户 ， 服 务 器 可 能 需要 采用 应 用 层 协 议 ， 如 用 户 可 能 需要 输入 密码 。 还 要 考虑 电子 邮件 的 问 
题 。 通 过 工业 标准 SMTP 协议 传送 的 E-mail 在 交付 之 前 ， 会 被 存储 和 转发 ， 经 常 多 次 。 每 
一 个 传输 可 能 通过 安全 的 或 不 安全 的 网 络 。 为 了 E-mail 安全 ，E-mail 消息 需要 加 密 ， 这 样 
它 的 安全 性 独立 于 承载 它 的 传输 。 


15.4.3 例子: SSL 


SSL 3.0 是 一 个 加 密 协 议 ， 人 允许 两 台 计算 机 可 以 安全 通信 ， 即 消息 的 发 送 者 和 接收 者 可 
以 互相 限定 。 这 可 能 是 互联 网 现在 最 常 使 用 的 加 密 协 议 ， 因 为 它 是 Web 浏览 器 与 Web 服务 
器 进行 安全 通信 的 标准 协议 。 为 了 全 面 起 见 ， 我 们 应 该 注意 到 ，SSL 是 由 Netscape 设计 ， 
已 发 展 成 为 行业 标准 的 TLS 协议 。 在 以 下 讨论 中 , 我 们 采用 SSL 来 表示 SSL Fl TLS. 

SSL 是 个 具有 许多 选项 的 复杂 协议 。 这 里 只 分 析 一 种 SSL。 即 便 如 此 ， 我 们 的 描述 还 是 
非常 简单 和 抽象 ， 以 便 主 要 关注 加 密 原 语 的 使 用 。 我 们 将 要 看 到 的 是 一 个 复杂 情况 ， 它 采用 
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非 对 称 加 密 ， 以 便 客户 和 服务 器 可 以 建立 会 话 密 钥 (session key) 来 对 称 加 密 两 者 之 间 的 会 
话 ， 所 有 这 一 切 还 同时 避免 中 间 人 攻击 和 重 放 攻 击 。 为 了 提高 加 密 强 度 ， 一 旦 会 话 结束 ， 会 
话 密 钥 就 被 忘记 。 男 一 个 二 者 之 间 的 通信 可 能 需要 生成 新 的 会 话 密 钥 。 

客户 机 c 启动 SSL 协议 ， 以 便 与 服务 器 安全 通信 。 在 使 用 协议 之 前 ， 假 设 服务 器 s 已 
经 从 证 书 机 构 得 到 了 一 个 证 书 ， 称 为 cert'。 这 个 证 书 的 内 容 如 下 : 

o 服务 器 的 各 种 属性 attrs， 包 括 唯 一 的 特别 (distinguished) 名 称 和 常用 (DNS) 名 称 。 

© 服务 器 的 非 对 称 加 密 算法 EO 的 标识 。 

© 这 个 服务 器 的 公共 密 钥 。 

© 证 书 应 为 有 效 的 时 间 区 间 (interval), 

© CA 根据 以 上 信息 计算 数字 签名 a， 也 就 是 说 , a= Sk (attrs, Er, interval ) ), 

除 此 之 外 ， 在 使 用 协议 前 ， 客 户 机 假定 已 经 获得 了 CA 的 公共 验证 算法 Vrieg 对 于 Web [667 
情况 ， 用 户 浏览 器 在 供应 商 发 化 时 ， 本 就 包含 验证 算法 和 一 些 证 书 机 构 的 公 钥 。 用 户 可 以 添 
加 或 删除 这 些 机 构 。 

当 客 户 机 c 连接 服务 器 时 ， 它 发 送 一 个 28 字 节 的 随机 值 n 到 服务 器 ， 而 s 的 回应 是 
自己 的 随机 值 x;， 加 上 证 书 cert,;。 客 户 机 确认 Vi (< attrs, E,;,, interval ) , a) = true, 
并 且 确 认 当 前 时 间 处 于 有 效 区 间 interval。 如 果 两 个 条 件 都 满足 ， 则 就 证 明了 服务 器 的 身 
份 。 接 着 客户 机 生成 一 个 随机 的 46 字 节 的 预 主 密 钥 ( premaster secret) pms, FH AIK cpms = 
E,, (pms) 到 服务 器 。 服 务 器 恢复 pms = Dy (cpms)。 现 在 客户 机 和 服务 器 都 有 了 ne ns 和 
pms， 它 们 可 以 算出 共享 的 48 字 节 的 主 控 密 钥 (master secret) ms = H(n., ns, pms)。 只 有 服务 
器 和 客户 机 可 以 计算 ms， 因 为 只 有 它们 知道 pms。 此 外 ，ms 对 n. 和 ,的 依赖 确保 了 ms 会 
是 新 鲜 的 ， 也 就 是 说 ， 这 个 通信 密 钥 并 未 在 以 前 的 通信 中 使 用 过 。 此 时 ， 客 户 机 和 服务 器 通 
过 ms 计算 下 列 密 钥 : 

o 对 称 加 密 密 钥 Cs ， 用 于 加 密 客户 机 到 服务 器 的 消息 。 

o 对 称 加 密 密 钥 ks™， 用 于 加 密 服 务 器 到 客户 机 的 消息 。 

© MAC 生成 密 钥 kas*“， 用 于 生成 客户 机 到 服务 咒 的 消息 认证 者 。 

e MAC 生成 密 钥 ke*， 用 于 生成 服务 器 到 客户 机 的 消息 认证 者 。 

为 了 发 送 消息 m， 客 户 机 发 送 : 

c= Exgve( (m, Sm (m) 》) 
收 到 c 后 ， 服 务 器 恢复 
( m, a ) = Dieva (c) 
当 Wimae(m, a) = true 时 ， 接收 m。 同 样 ， 为 了 发 送 消息 m BRP OL, ARG RAE 
c= Evyrt( ( m, Sym(m) 》) 
而 客户 机 恢复 
( m, a) = Dksppt(c) 
“4 Vimac(m, a) = true 时 ， 接 收 m。 

这 个 协议 能 够 允许 服务 器 限制 它 的 消息 接收 者 为 生成 pms 的 客户 ， 并 且 限 制 它 接收 到 
消息 的 发 送 者 为 同样 的 客户 。 同 样 ， 客 户 机 可 以 限制 它 发 送 消 息 的 接收 者 和 它 接收 消息 的 发 
送 者 为 知道 的 一 方 。 这 是 证 书 cert, 的 用 途 之 一 。 特 别 地 ， 域 attrs 包含 了 客户 机 用 于 [668 
确定 与 其 通信 的 服务 器 的 身份 信息 ， 如 域名 。 对 于 服务 器 也 要 知道 客户 机 信息 的 应 用 领域 ， 
SSL 提供 了 一 个 选项 ， 以 便 客户 机 发 送 一 个 证 书 到 服务 器 。 
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除了 用 于 Internet，SSL 还 可 用 于 各 种 各 样 的 任务 。 例 如 ，IPSec VPN 现在 有 一 个 SSL 
VPN 的 竞争 者 。IPSec 善于 加 密 点 到 点 的 流量 ， 如 两 个 办 公 地 点 之 间 。SSL VPN 更 灵活 , 但 
是 并 不 高 效 ， 这 样 可 以 用 于 远程 工作 人 员 与 企业 办 公 室 之 间 。 


15.5 用户 认 证 


我 们 之 前 的 认证 讨论 涉及 消息 和 会 话 。 但 是 针对 用 户 怎 么 样 ? 如 果 系 统 无 法 认证 用 
户 ， 则 认证 用 户 消 息 毫 无 意义 。 因 此 ， 操 作 系 统 的 一 个 主要 安全 问题 是 用 户 认 证 (user 
authentication)。 保 护 系 统 取决 于 识别 当前 执行 的 程序 和 进程 的 能 力 ， 这 又 取决 于 识别 每 个 
系统 用 户 的 能 力 。 用 户 通常 标识 自己 。 我 们 如 何 确定 用 户 的 身份 是 否 真 实 ? 通常 ， 用 户 认证 
基于 以 下 三 种 中 的 一 种 或 多 种 : 用 户 的 所 有 物 〈 密 钥 或 者 卡 等 )、 用 户 的 知识 〈 用 户 标 识 符 和 
密码 等 ) 或 用 户 的 属性 (指纹 、 视 网 膜 模 式 或 者 签名 等 ) 。 


15.5.1 密码 


认证 用 户 身 份 的 最 常用 的 方法 是 使 用 密码 ( password)。 当 用 户 使 用 用 户 ID 或 者 账户 名 
称 标识 自己 时 ， 他 被 要 求 输入 密码 。 如 果 用 户 提供 的 密码 匹配 系统 存储 的 密码 ， 那 么 系统 认 
为 访问 该 账户 的 是 账户 主人 。 

如 果 缺 乏 更 完整 的 保护 方案 ， 密 码 通常 用 于 保护 计算 机 系统 的 对 象 。 密 码 可 以 看 作 密 钥 
或 者 能 力 的 特例 。 例 如 ， 每 个 资源 (如 文件 ) 可 以 关联 一 个 密码 。 每 当 请 求 使 用 资源 时 ， 就 
必须 提供 密码 。 如 果 密 码 正确 ， 访 问 就 被 允许 。 不 同 访问 权限 可 能 关联 不 同 的 密码 。 例 如 ， 
阅读 文件 、 追 加 文件 和 更 新 文件 可 以 使 用 不 同 密码 。 

实际 上 ， 大 多 数 系统 只 要 求 每 个 用 户 拥有 一 个 密码 来 获得 完全 的 权限 。 尽 管 在 理论 上 密 
码 越 多 越 安全 ， 由 于 安全 与 方便 的 经 典 折 中 ， 这 种 系统 往往 不 能 实现 。 如 果 安 全 使 得 某 事 不 
方便 ， 安 全 常常 被 绕 过 或 以 其 他 方式 被 规避 。 


15.5.2 ”密码 漏洞 


密码 非常 常见 ， 因 为 它们 容易 理解 与 使 用 。 遗 憾 的 是 ， 密 码 经 常 能 被 猜 到 ， 或 偶尔 被 暴 
露 ， 或 被 嗅 探 (被 客 听 者 读 取 )， 或 从 授权 用 户 非 法 传 到 未 经 授权 的 用 户 ; 接 下 来 ,我 们 讨 
论 这 些 问 题 。 

猜测 密码 有 两 种 常见 方式 。 一 种 方式 是 ， 人 侵 者 (人 或 程序 ) 知道 用 户 或 拥有 这 个 用 户 
的 相关 信息 。 人 们 常常 使 用 明显 的 信息 (如 他 们 的 猫 或 配偶 的 名 字 ) 作为 他 们 的 密码 。 另 一 
种 方式 是 ， 使 用 暴力 ， 尝 试 枚 举 有 效 密 码 字符 (在 某 些 系统 上 ， 为 字母 、 数 字 和 标点 符号 ) 
的 所 有 可 能 组 合 ， 直 到 找到 密码 。 短 密码 特别 容易 受到 这 种 方法 的 攻击 。 例 如 ，4 个 字符 的 
密码 只 提供 了 10 000 种 可 能 。 平 均 而 言 ， 猜 测 5000 次 很 可 能 正确 命中 。 每 毫秒 尝试 一 个 密 
码 的 程序 只 需 5 秒 左右 就 能 猜测 一 个 4 位 字符 的 密码 。 如 果 系 统 提供 更 长 密码 ， 而 且 密 码 
包括 大 小 写字 母 、 数 字 和 各 种 标点 符号 ， 则 枚 举 不 太 成 功 。 当 然 ， 用 户 必 须 利 用 大 的 密码 空 
间 ， 例如， 密码 不 应 只 使 用 小 写字 母 。 

除了 被 猜 到 外 ， 通 过 可 视 或 电子 监控 ， 密 码 可 能 会 被 暴露 出 来 。 入 侵 者 在 用 户 登录 时 可 
以 越过 用 户 肩膀 来 偷窥 用 户 密 码 CB SE (shoulder surfing))， 并 且 通 过 观看 键盘 可 以 轻松 学 
到 密码 。 或 者 ， 任 何人 ， 只 要 具有 计算 机 所 处 网 络 的 访问 权限 ， 就 可 神 不 知 鬼 不 觉 地 添加 一 
个 网 络 监视 器 ， 以 便 嗅 探 (sniff) 或 观看 网 络 传输 的 所 有 数据 ， 包 括 用 户 ID 和 密码 。 包 含 密 
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码 的 数据 流 加 密 解 决 了 这 个 问题 。 然 而 ， 即 使 这 样 的 系统 仍 有 密码 被 盗 的 问题 。 例 如 ， 如 果 
一 个 文件 包含 密码 ， 它 可 以 被 复制 ， 以 便 离线 系统 分 析 。 或 者 ， 考 虑 安装 在 系统 上 的 一 个 特 
洛 伊 木马 程序 ， 它 捕获 每 个 按键 然后 发 送 到 应 用 程序 。 

如 果 密 码 被 写 到 可 能 读 取 或 丢失 的 地 方 ， 则 泄露 就 是 一 个 特别 严重 的 问题 。 有 些 系 统 强 
制 用 户 选择 难 记 的 或 长 的 密码 或 者 频繁 更 改 他 们 的 密码 ， 从 而 可 能 导致 用 户 记 下 密码 或 重复 
使 用 。 结 果 ， 与 允许 采用 简单 密码 的 系统 相 比 ， 这 类 系统 提供 了 更 少 的 安全 性 ! 

最 后 一 种 类 型 的 密码 妥协 为 非法 转移 ， 是 人 性 弱点 的 恶果 。 大 多 数 计算 机 都 有 规定 ， 以 
便 禁 止 用 户 共 享 账户 。 这 个 规定 有 时 为 了 方便 账户 管理 ， 但 常常 为 了 改善 安全 。 例 如 ， 假 设 
一 个 用 户 ID 有 多 个 用 户 共 享 ， 而 且 这 个 用 户 ID 发 动 了 安全 攻击 。 无 法 知道 哪个 用 户 在 攻 
击 时 使 用 这 个 ID ， 甚 至 无 法 确认 这 个 用 户 是 否 是 授权 用 户 。 如 果 一 个 用 户 ID 有 一 个 用 户 ， 
可 以 直接 询问 任何 用 户 关于 账户 的 使 用 ; 此 外 ， 用 户 可 能 发 现 账户 的 异常 和 入 侵 。 有 时 ， 用 
户 破坏 账户 共享 规则 ， 以 帮助 朋友 或 规避 账户 管理 ; 这 种 行为 可 能 导致 系统 被 未 经 授权 用 户 
(可 能 有 破坏 意图 的 用 户 ) 访问 。 

密码 可 由 系统 生成 ， 或 由 用 户 选择 。 系 统 生 成 的 密码 可 能 难以 记 住 ， 因 此 用 户 可 以 将 
密码 写 下 来 。 然 而 ， 如 上 所 述 ， 用 户 选 择 的 密码 通常 容易 猜 出 〈 例 如 ， 用 户 名 或 喜爱 的 车 )。 
有 些 系统 在 接受 密码 前 会 检测 密码 是 否 易于 猜测 或 破解 。 有 些 系统 为 密码 设 定 有 效 期 (age)， 
强制 用 户 定期 更 新 密码 〈 例 如 ， 每 三 个 月 一 次 )。 这 种 方法 也 不 是 万 无 一 失 的 ， 因 为 用 户 很 
容易 在 两 个 密码 之 间 切 换 。 解 决 方案 ， 如 有 些 系统 采用 的 ， 是 为 每 个 用 户 记录 密码 历史 。 例 
如 ， 系 统 可 以 记录 最 近 使 用 的 X 个 密码 ， 并 禁止 重用 它们 。 

可 以 采用 这 些 简单 密码 方案 的 变种 。 例 如 ， 可 以 频繁 更 换 密码 。 在 极端 情况 下 ， 每 次 会 
话 都 会 更 改 密码 。 当 每 次 会 话 结束 时 ， 新 的 密码 需要 选择 (或 者 由 系统 或 者 由 用 户 来 选择 )， 
这 个 密码 必须 用 于 下 次 会 话 。 这 么 一 来 ， 即 便 密码 被 误 用 了 ， 也 只 会 被 误 用 一 次 。 当 合法 用 
户 在 下 次 会 话 中 使 用 一 个 现在 无 效 的 密码 时 ， 他 就 会 发 现 安全 违规 。 然 后 可 以 采取 步骤 来 修 
复 被 破坏 的 安全 。 


15.5.3 ”密码 安全 


所 有 这 些 方 法 的 一 个 问题 是 ， 难 以 保密 计算 机 内 的 密码 。 系 统 如 何 安全 保存 密码 ， 当 用 
户 输入 密码 时 允许 它 用 于 身份 认证 ? UNIX 系统 使 用 安全 哈 希 ， 以 避免 秘密 保存 密码 列表 。 
由 于 这 个 列表 是 哈 希 的 而 非 加 密 的 ， 系 统 无 法 解密 存储 的 值 并 确定 原始 密码 。 

这 种 系统 工作 如 下 。 每 个 用 户 都 有 一 个 密码 。 系 统 包含 一 个 极其 复杂 的 函数 ;设计 者 希 
望 这 个 函数 不 可 逆 ， 而 计算 函数 值 却 是 非常 简单 。 也 就 是 说 ， 给 了 一 个 值 *， 很 容易 计算 哈 
希 函 数值 f(x)。 然 而 ， 给 定 一 个 函数 值 了 (x)， 不 可 能 计算 x。 这 个 函数 用 于 哈 希 所 有 密码 ; 
已 经 哈 希 的 密码 才 保存 。 当 用 户 给 出 一 个 密码 时 ， 它 被 哈 希 ， 并 与 计算 机 存储 的 哈 希 密码 对 
比 。 即 使 存储 的 哈 希 密码 可 见 ， 它 不 能 被 解码 ， 所 以 密码 无 法 确定 。 因 此 ， 密 码 文件 没有 需 
要 保密 。 

这 个 方法 的 缺陷 是 ， 系 统 不 再 具有 密码 的 控制 权 。 虽 然 密码 是 哈 希 的 ， 拥 有 密码 文件 副 
本 的 任何 人 可 以 对 它 运行 快速 哈 希 程序 ， 例 如 ， 对 字典 中 的 每 个 单词 计算 哈 希 ， 并 与 哈 希 密 
码 进行 比较 。 如 果 用 户 选择 了 字典 中 的 一 个 单词 作为 密码 ， 那 么 这 个 密码 就 被 破译 了 。 对 于 
足够 快 的 计算 机 ， 或 者 甚至 慢 的 计算 机 的 集群 ， 这 样 的 比较 可 能 只 需要 几 个 小 时 。 此 外 ,由 
F UNIX 系统 使 用 了 著名 的 哈 希 算法 ， 因 此 骇 客 可 能 会 有 一 些 以 前 已 经 破译 出 来 的 缓存 。 由 
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于 这 些 原因 ， 系 统 在 哈 希 算法 中 包括 一 点 “ 盐 ” 或 一 个 记录 的 随机 数 ， 通 过 为 密码 增加 盐 值 
可 以 确保 : 如 果 两 个 明文 密码 一 样 ， 它 们 导致 不 同 的 哈 希 值 。 另 外 ， 盐 值 能 使 哈 希 字典 无 
效 ， 因 为 每 个 词典 单词 需要 结合 盐 值 ， 以 便 与 存储 的 密码 来 比较 。 较 新 版 本 的 UNIX 还 存 
储 哈 希 密码 到 一 个 文件 ， 该 文件 只 能 由 超级 用 户 才 能 读 取 。 比 较 哈 希 与 存储 值 的 程序 执行 
setuid 为 root， 以 便 可 以 读 取 这 个 文件 ,但 是 其 他 用 户 不 能 。 

UNIX 采用 的 密码 方法 的 另 一 个 弱点 是 ， 许 多 UNIX 系统 只 处 理 密码 的 前 8 个 字符 。 
此 ,极其 重要 的 是 ， 用 户 应 当 充 分 利用 可 用 的 密码 空间 。 更 加 复杂 的 问题 是 ， 有 些 系统 不 允 
许 使 用 字典 的 单词 来 作为 密码 。 产 生 安 全 密码 的 一 个 好 方法 是 ， 选 取 一 个 容易 记忆 的 短语 ， 
采用 每 个 单词 的 首 字母 ， 加 上 大 小 写字 母 ， 并 夹带 若干 标点 符号 来 提高 难度 。 例 如 ， 短 语 
“My mother’s name is Katherine ”可 以 产生 密码 “Mmn.isK!”。 这 个 密码 很 难 破解 ， 但 是 用 
户 很 容易 记得 。 更 加 安全 的 系统 会 允许 更 多 的 密码 字符 。 实 际 上 ， 系 统 也 可 允许 密码 包含 空 
格 字 符 ， 以 便 用 户 可 以 创建 短语 密码 (passphrase), 


15.5.4 一 次 性 密码 


为 了 避免 密码 嗅 探 或 肩 帘 等 问题 ， 系 统 可 以 使 用 一 组 配对 密码 (paired password)。 当 
会 话 开始 时 ， 系 统 随 机 选择 并 提供 一 个 密码 对 的 一 部 分 ; 用 户 必须 提供 另 一 部 分 。 在 这 种 系 
统 中 ， 用 户 面临 挑战 (challenge) 或 拷问 ， 因 此 必须 用 正确 答案 来 回应 (respond) 那个 挑战 。 

这 种 方法 可 以 扩展 为 采用 算法 作为 密码 。 这 种 算法 密码 不 易 重用 。 也 就 是 说 ， 用 户 可 以 
输入 密码 ， 并 且 任 何 拦 截 密码 的 实体 都 不 能 重复 使 用 它 。 在 这 个 方案 中 ， 系 统 与 用 户 共享 对 
称 密码 。 密 码 pw 从 不 通过 允许 曝光 的 介质 来 传输 。 相 反 ， 密 码 ， 与 系统 提供 的 挑战 ch 一 
起 ， 用 作 函 数 的 输入 。 然 后 ， 用 户 计算 函数 (pw, ch)。 这 个 函数 结果 作为 计算 机 认证 来 传 
输 。 因 为 计算 机 也 知道 pw 和 ch， 它 可 以 执行 同样 的 计算 。 如 果 结 果 匹 配 ， 用 户 得 以 完成 身 
份 认证 。 下 次 需要 认证 用 户 ， 生 成 另 一 个 ch， 并 且 采 用 相同 步骤 。 这 次， 认证 者 是 不 同 的 。 
这 种 一 次 性 密码 ( one-time password) 系统 是 防止 由 于 密码 曝光 而 进行 不 正当 认证 的 多 种 方 
as 

一 次 性 密码 系统 的 实现 有 多 种 方式 。 商 用 实现 采用 带 有 显示 屏 或 数字 键盘 的 硬件 计算 
器 。 这 些 计算 器 通常 采取 信用 卡 、 钥 匙 链 加 密 狗 或 USB 设备 等 形式 。 计 算 机 或 智能 手机 
运行 的 软件 为 用 户 提 供 矿 (pw, ch); pw 可 以 由 用 户 输入 ， 或 者 由 与 计算 机 同步 的 计算 器 来 
生成 。 有 时 ，pw 只 是 个 人 识别 号 码 (Personal Identification Number，PIN)。 任 何 这 些 系 
统 的 输出 都 是 一 次 性 密码 。 要 求 用 户 输入 的 一 次 性 密码 生成 器 涉及 双 因 素 认 证 (two-factor 
authentication )。 例 如 ， 这 种 情况 需要 两 种 不 同类 型 的 组 件 ， 一 次 性 密码 生成 器 只 有 PIN 有 
效 才能 生成 正确 响应 。 双 因素 认证 比 单 因素 认证 提供 了 更 好 的 认证 保护 ， 因 为 它 需 要 “你 有 
的 东西 ”以 及 “你 知道 的 东西 ”。 

一 次 性 密码 的 男 一 个 变 体 采用 密码 篇 (code book) 或 一 次 性 pad (one-time pad) ( 单 次 
使 用 密码 的 列表 )。 列 表 上 的 每 个 密码 使 用 一 次 ， 然 后 划 掉 或 擦 除 。 常 用 S/Key 系统 通过 软 
件 计 算 器 或 代码 簿 来 进行 计算 ， 以便 作为 一 次 性 密码 的 来 源 。 当 然 ， 用 户 必须 保护 好 密码 
1; 如 果 密 码 往 不 能 对 系统 标识 哪个 密码 是 认证 者 的 ， 则 这 是 有 用 的 。 


15.5.5 ”生物 识别 技术 
采用 密码 的 身份 认证 的 另 一 个 变种 ， 涉 及 使 用 生物 识别 措施 。 掌 上 或 手持 阅读 器 通常 用 
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于 保护 物理 访问 ， 例如， 访问 数据 中 心 。 这 些 阅 读 器 将 存储 参数 与 手 读 取 的 进行 匹配 。 这 些 
参数 可 以 包括 温度 图 、 手 指 长 度 、 手 指 宽度 和 指纹 图 案 等 。 这 些 设备 当前 太 大 而 且 昂 贵 ， 以 
致 不 太 适 合用 于 正常 的 计算 机 认证 。 

指纹 读 取 器 已 经 变 得 准确 而 且 性 价 比 高 ， 应 该 在 未 来 变 得 越 来 越 普 遍 。 这 些 设备 读 取 
手指 图 案 ， 并 将 它们 转换 为 数字 序列 。 随 着 时 间 的 推移 ， 它 们 可 以 存储 一 套数 字 序列 ， 以 适 
应 手指 在 pad 上 的 位 置 和 其 他 因素 。 软 件 可 以 扫描 在 pad 上 的 手指 ， 并 与 存储 的 序列 进行 比 
较 ， 以 确定 它们 是 否 匹 配 。 当 然 ， 可 以 为 多 个 用 户 存储 指纹 文件 ， 并 且 可 以 区 分 它们 。 一 个 
非常 准确 的 双 因素 认证 方案 可 以 采用 密码 、 用 户 名 以 及 指纹 。 如 果 在 传输 过 程 中 加 密 这 些 信 
息 ， 系 统 能 够 充分 抵御 欺骗 和 重播 攻击 。 

多 因素 认证 (multifactor authentication) 更 好 。 考 虑 一 下 ， 通 过 必须 插入 系统 的 USB 设 
备 、PIC 和 指纹 ， 认 证 可 能 会 有 多 强 ? 除 了 要 将 手指 放 在 pad 上 ， 并 将 USB 插入 系统 ， 这 
种 认证 方法 的 方便 性 不 亚 于 使 用 普通 密码 。 然 而 ， 回 想 一 下 ， 这 种 强大 认证 本 身 还 不 足以 保 
证 用 户 的 ID。 如 果 未 被 加 密 ， 认 证 会 话 仍 可 能 被 劫持 。 


15.6 ”实现 安全 防御 


正如 存在 无 数 的 系统 威胁 和 网 络 安全 问题 一 样 ， 也 存在 许多 安全 解决 方案 。 解 决 方 
法 包括 从 用 户 教育 ， 到 技术 改进 ， 到 无 错 软件 的 编写 。 大 多 数 安全 专业 人 士 赞同 深度 防御 
(defense in depth) 理论 ， 它 指出 防御 层次 越 多 越 好 。 当 然 ， 这 个 理论 适用 任何 安全 。 考 虑 一 
下 房子 的 安全 : 没有 门 锁 的 、 有 门 锁 的 、 有 门 锁 和 报警 器 。 本 节 分 析 加 强 防 御 威 胁 的 各 种 主 
要 方法 、 工 具 和 技术 。 


15.6.1 安全 策略 


改进 任何 计算 安全 方面 的 第 一 步 是 有 一 个 安全 策略 (security policy)。 安 全 策略 差异 很 
K, 但 是 通常 包括 保护 内 容 的 声明 。 例 如 ， 安 全 策略 可 能 声明 ， 所 有 外 部 可 访问 的 应 用 程序 
必须 在 部 署 之 前 进行 代码 审查 ， 或 者 用 户 不 应 共享 密码 ， 或 者 公司 与 外 界 的 所 有 连接 点 必须 
每 6 个 月 进行 一 次 端口 扫描 。 没 有 安全 策略 ， 用 户 和 管理 员 无 法 知道 : 什么 是 允许 的 ， 什 么 
是 需要 的 ， 什 么 是 不 允许 的 。 安 全 策略 是 个 安全 的 路 线 图 ; 如 果 一 个 站 点 试图 改进 安全 ， 则 
它 需 要 有 一 张 路 线 图 ， 以 便 到 达 那 里 。 

一 旦 安全 策略 有 了 ， 它 涉及 的 人 员 就 应 很 清楚 地 知道 它 。 这 是 指导 原则 。 安 全 策略 也 应 
是 个 活 的 文档 (living document)， 它 应 定期 审查 和 更 新 ， 以 确保 仍旧 合适 并 被 遵循 。 
15.6.2 ”漏洞 评估 

我 们 如 何 确定 安全 策略 是 否 正确 实施 ”最 好 的 方法 是 执行 漏洞 评估 。 这 种 评估 覆盖 范围 
很 广 ， 从 社会 工程 ， 到 风险 评估 ， 到 端口 扫描 。 例 如 ， 风 险 评 估 (risk assessment) 企图 评定 
相关 实体 (程序 、 管 理 团队 、 系 统 或 设施 )， 并 且 确 定安 全 事件 影响 实体 并 降低 价值 的 可 能 
性 。 当 遭受 损失 的 可 能 和 潜在 的 损失 已 知 时 ， 可 以 设置 一 个 值 来 试图 保护 实体 。 

大 多 数 漏洞 评估 的 核心 活动 是 渗透 测试 (penetration test)， 即 扫描 实体 以 查找 已 知 漏洞 。 
因为 本 书 是 关于 操作 系统 及 其 运行 软件 ， 所 以 我 们 专注 漏洞 评估 的 这 些 方面 。 

漏洞 扫描 通常 在 计算 机 使 用 较 少 时 执行 ， 以 便 尽量 减少 影响 。 在 适当 的 时 候 ， 它 们 应 在 
测试 系统 而 非 生产 系统 上 执行 ， 否 则 它们 会 导致 目标 系统 或 网 络 设备 的 不 适 。 
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针对 单个 系统 的 扫描 可 以 检查 系统 的 各 个 方面 : 

e 短 的 或 易于 猜测 的 密码 

© 未 经 授权 的 特权 程序 ， 如 setuid 程序 

e 系统 目录 内 的 未 经 授权 程序 

e 出 乎 意料 的 长 期 运行 的 进程 

o 针对 用 户 和 系统 目录 上 的 不 当 目录 保护 

© 系统 数据 文件 (如 密码 文件 、 设 备 驱 动 程序 或 者 操作 系统 内 核 本 身 ) 的 不 当 保护 
e 程序 搜索 路 径 内 的 危险 条 目 (例如 ，15.2.1 节 讨 论 的 特洛伊 木马 ) 

© 通过 校 验 和 的 值 发 现 的 系统 程序 的 改变 

o 意外 或 隐蔽 的 网 络 守护 进程 


[674] 安全 扫描 发 现 的 任何 问题 可 以 自动 修补 ， 也 可 以 报告 给 系统 管理 员 。 
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网 络 计 算 机 比 独立 系统 更 容易 受到 安全 攻击 。 除 了 面 对 来 自己 知 访问 节点 集合 的 攻击 ， 
如 直接 连接 的 终端 ， 还 要 面 对 来 自 一 个 庞大 而 未 知 的 访问 节点 集合 的 攻击 ， 这 是 一 个 潜在 的 
严重 的 安全 问题 。 通 过 调制 解 调 器 由 电话 线 连接 的 系统 ， 在 较 小 程度 上 ， 也 更 会 暴露 。 

事实 上 ,美国 政府 认为 ， 系 统 的 安全 性 如 同系 统 最 远 到 达 的 连接 的 安全 性 。 例 如 ， 顶 级 机 
密 的 系统 只 能 从 顶级 机 密 的 大 楼 来 访问 。 如 果 在 这 种 环境 之 外 可 以 访问 它 ， 则 这 个 系统 将 失去 
顶级 的 评级 。 有 些 政 府 设施 采取 极端 的 安全 防范 措施 。 安 全 计算 机 的 终端 连接 器 在 不 用 时 ， 锁 
在 办 公 室 的 保险 箱 中 。 为 了 获得 访问 计算 机 的 权限 ， 用 户 必须 具有 正确 的 ID 以 便 进入 大 楼 和 办 
公 室 ， 必 须知 道 物理 锁 的 组 合 ， 必 须知 道 计算 机 本 身 的 认证 信息 等 ， 这 是 个 多 因素 认证 的 例子 。 

遗憾 的 是 ， 系 统管 理 员 和 计算 机 安全 专业 人 十 通常 无 法 将 机 器 锁 在 房间 里 ， 不 允许 所 有 
远程 访问 。 例 如 ，Internet 目前 连接 数 以 百 万 计 的 计算 机 ， 对 许多 公司 和 个 人 来 说 已 成 为 任 
务 关 键 的 不 可 或 缺 的 资源 。 如 果 将 Internet 看 作 一 个 俱乐部 ， 则 就 像 任意 一 个 有 着 上 百 万 成 
员 的 俱乐部 一 样 ， 它 会 有 许多 好 会 员 ， 同 时 也 会 有 一 些 坏 会 员 。 坏 会 员 有 很 多 可 用 工具 , 来 
尝试 访问 互 连 的 计算 机 ， 就 像 Morris 借助 蠕虫 采取 的 行动 一 样 。 

漏洞 扫描 可 以 用 于 网 络 ， 来 解决 网 络 安全 的 一 些 问 题 。 扫 描 搜索 响应 请 求 的 网 络 端口 。 
如 果 启 用 了 不 应 启用 的 服务 ， 则 它们 的 访问 可 以 被 阻止 或 者 可 以 被 禁用 。 然 后 扫描 确定 监听 
端口 的 应 用 程序 的 细节 ， 并 且 试 图 确定 它 是 否 有 已 知 漏洞 。 测 试 这 些 漏 洞 可 以 确定 ， 系 统 是 
否 错误 配置 或 缺少 必需 的 修补 程序 。 

最 后 ， 尽 管 如 此 ， 考 虑 端口 扫描 程序 被 骇 客 掌握 ， 而 不 是 那些 试图 提高 安全 的 人 。 这 些 
工具 可 以 帮助 骇 客 发 现 攻 击 的 漏洞 。( 幸 运 的 是 ， 可 以 通过 异常 检测 来 确定 端口 扫描 ， 这 将 
在 下 一 节 讨 论 )。 同 样 的 工具 既 能 做 好 事 也 能 做 环 事 ， 这 是 个 常见 的 安全 挑战 。 事 实 上 ， 有 
些 人 主张 隐藏 式 安全 (security through obscurity)， 规 定 不 应 该 编写 工具 来 测试 安全 ， 因 为 这 
类 工具 可 以 用 于 查找 (并 利用 ) 安全 漏洞 。 其 他 认为 这 种 安全 方法 不 是 有 效 的 方法 ， 例 如 ， 
指出 骇 客 可 以 自己 编写 工具 。 隐 藏 式 安 全 似乎 可 以 合理 地 被 认为 是 安全 层 之 一 ， 只 要 它 不 是 
唯一 的 层 。 例 如 ， 一 家 公司 可 以 公布 它 的 全 部 网 络 配置 ,但 是 这 种 信息 的 保密 使 得 入 侵 者 更 
难 知道 攻击 什么 或 确定 测试 什么 。 但 是 ， 即 使 如 此 ， 如 果 一 家 公司 假设 这 样 的 信息 仍然 是 个 
秘密 ， 则 它 具 有 虚假 的 安全 感 。 


15.6.3 AHM 
系统 与 设施 的 安全 保护 与 人 侵 检 测 密 切 相 关 。 入 侵 检 测 (intrusion detection)， 正 如 名 称 
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所 示 ， 力 争 检测 尝试 或 成 功 人 侵 计 算 机 系统 ， 并 启动 人 侵 的 恰当 响应 。 入 侵 检测 包括 各 种 不 
同 的 技术 ， 包 括 以 下 内 容 : 

o 检测 的 时 机 。 实 时 的 〈 当 入侵 发 生 时 ) 或 者 事后 的 。 

e 检测 入 侵 活动 的 输入 类 型 。 这 些 可 能 包括 用 户 shell 命令 、 进 程 系统 调用 和 网 络 包 的 
头 部 或 内 容 。 某 些 人 侵 形 式 只 能 通过 关联 多 个 人 侵 源 来 检测 。 

e 响应 能 力 的 范围 。 响 应 的 简单 形式 包括 ， 和 警告 管理 员 潜在 的 入侵 ， 或 者 以 某 种 方式 
阻止 潜在 人 侵 活 动 ， 例 如 ， 杀 死 从 事 此 类 活动 的 进程 。 对 于 响应 的 高 级 复杂 形式 ， 
系统 可 能 透明 地 转移 人 侵 活 动 到 一 个 密 缸 ( honeypot)， 即 暴露 给 入 侵 者 的 一 个 错误 
资源 。 这 个 资源 对 攻击 者 来 说 似乎 是 真实 的 ， 并 且 人 允许 系统 监视 和 获取 有 关 攻 击 的 
信息 。 

入 侵 检 测 的 设计 空间 的 这 些 自由 度 已 经 形成 了 各 种 各 样 的 解决 方案 ， 可 以 分 为 入 侵 检 

测 系统 ( Intrusion-Detection System, IDS) 和 入侵 防御 系统 ( Intrusion-Prevention System, 
IDP)。IDS 系统 在 检测 到 入 侵 时 响起 警报 ; 而 IDP 系统 充当 路 由 器 ， 传 输 交 通 ， 除 非 检 测 
到 入 侵 (此 时 它 会 被 阻止 )。 

但 是 什么 构成 了 入 侵 ? 定义 一 个 合适 的 入 侵 规 范 证 明 是 相当 困难 的 ， 因 此 自动 IDS 和 
DP 现在 通常 是 两 个 较为 雄心 勃勃 的 方法 之 一 。 对 于 第 一 种 ， 称 为 基于 签名 的 检测 (signature- 
based detection)， 可 以 分 析 系 统 输 入 或 网 络 流量 ， 以 查找 表示 攻击 的 具体 行为 模式 (或 签名 
(signature) )。 一 个 简单 的 基于 签名 检测 的 例子 是 ， 扫 描 网 络 包 来 查找 针对 UNIX 系统 的 字符 串 
/etc/passwd/。 男 一 个 例子 是 病毒 检测 软件 ， 扫 描 二 进 制 文件 或 网 络 包 ， 来 获取 已 知 病毒 。 

第 二 种 方法 通常 称 为 异常 检测 (anomaly detection)， 尝 试 通过 各 种 技术 检测 计算 机 系统 
内 的 异常 行为 。 当 然 ， 虽然 不 是 所 有 的 异常 系统 活动 都 表示 入 侵 ， 但 是 推测 入 侵 经 常 诱发 异 
常 行为 。 异 常 检测 的 一 个 例子 是 ， 监 视 守护 进程 的 系统 调用 ， 检 测 系 统 调 用 行为 是 否 偏 离 正 
常 模 式 ， 它 可 能 表示 守护 进程 利用 缓冲 区 溢出 来 进行 破坏 。 男 一 个 例子 是 ， 监 视 shell 命令 ， 
检测 给 定 用 户 的 异常 命令 或 检测 用 户 的 异常 登录 时 间 ， 它 可 能 表明 攻击 者 已 经 成 功 地 获得 了 
用 户 账户 的 访问 。 

基于 签名 的 检测 和 异常 检测 可 以 看 作 是 同一 枚 硬币 的 两 面 。 基 于 签名 检测 试图 描述 危险 
行为 的 特征 ， 检 测 是 否 发 生 这 些 行为 ; 然而 异常 检测 试图 描述 正常 (或 非 危 险 ) 行为 的 特征 ， 
检测 是 否 发 生 其 他 行为 。 

这 些 不 同方 法 导致 IDS M IDP 具有 很 不 相同 的 属性 。 特 别 地 ， 异 常 检测 可 以 检测 以 前 
RAM ARIE (BRIA (zero-day attack))。 相 比 之 下 ， 基 于 签名 的 检测 只 会 识别 已 知 模 
式 的 攻击 。 因 此 ， 新 的 攻击 还 没有 已 知 的 签名 ,会 逃避 基于 签名 的 检测 。 病 毒 检测 软件 厂商 
都 知道 这 个 问题 ， 因 此 随 着 新 病毒 的 人 工 检测 ， 必 须 频繁 地 更 新 签名 。 

然而 ,异常 检测 不 一 定 优 于 基于 签名 的 检测 。 实 际 上 ， 采 用 异常 检测 的 系统 面临 的 一 个 
重大 挑战 是 ， 准 确 设 定 系统 “正常 ”行为 的 基准 点 。 如 果 在 测定 系统 基准 点 时 系统 已 经 被 人 
侵 过 ， 则 这 个 正常 行为 的 基准 点 就 可 能 包含 人 侵 活 动 。 即 使 系统 的 基准 点 是 干净 设 定 的 ， 没 
有 受到 人 侵 的 影响 ， 基 准点 必须 给 出 正常 行为 的 相当 完整 描述 。 和 否则 ， 假 阳性 〈false positive) 
的 数字 ( 假 报警 )， 或 者 更 为 糟糕 的 是 ， 假 阴性 (false negative) 的 (错过 入 侵 ) 会 过 多 。 

为 了 说 明 错 误 警 告 的 太 高 发 生 频 率 的 影响 ， 考 虑 由 一 百 台 UNIX 机 器 的 系统 ， 记 录 所 有 
安全 相关 事件 ， 以 便 进行 人 侵 检测 。 这 类 小 型 安装 每 天 可 以 轻松 产生 上 百 万 条 的 审计 记录 。 
只 有 一 条 或 两 条 可 能 值得 管理 员 的 调查 。 如 果 我 们 乐观 假设 每 十 条 审计 记录 可 以 反映 一 次 实 
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际 的 攻击 ， 则 我 们 可 以 粗略 计算 审计 记录 反映 真正 入 侵 活动 的 发 生 率 : 


AR ， 记录 
2 一 全 .10 一 一 
天 入 侵 
—————— = 0.000 02 
10 ČŽ 
RK 


通过 解释 这 个 为 “和 人 侵 记 录 的 发 生 概 率 "， 我 们 可 以 采用 符号 PU); 也 就 是 说 ， 事 
件 7 是 反映 真实 人 侵 行 为 的 记录 的 发 生 。 由 于 PU) = 0.000 02， 所 以 P(/ 1) = 1 - PU) = 
0.999 98。 现 在 ， 让 4 表示 通过 IDS 的 警报 引发 。 精 确 的 IDS 应 该 最 大 化 PUA) 和 P( 一 了 
一 4)， 也 就 是 说 ， 报 警 表 示人 入 侵 ， 没 有 报警 表示 没有 人 侵 。 现 在 关注 P(1|4)， 可 以 采用 贝 叶 
斯 定理 (Bayes’ theorem) 来 计算 它 : 
PIA) = P(I) + P(AID) 

P(I) + P(A) + P(— 171): P(A| 51) 
= 0.000 02 + P(AII) 
0.000 02 + P(A|J) + 0.999 98 - P(A| — T) 

现在 分 析 假 报警 率 P(A — I) 对 PUA) 的 影响 。 即 使 对 于 非常 好 的 报警 率 PAJ) = 0.8, 
似乎 不 错 的 错误 报警 率 PU| — J) = 0.000 1 导致 PUA) = 0.14。 也 就 是 说 ， 每 七 个 报警 中 只 
有 不 到 一 个 报警 是 真实 的 入 侵 ! 如 果 安 全 管理 员 调查 系统 中 的 每 个 报警 ， 那 么 很 高 的 错误 报 
警 率 称 为 “圣诞 树 效应 ”(Christmas tree effect)， 非 常 浪费 ， 并 将 迅速 导致 管理 员 忽 略 报警 。 

这 个 例子 说 明了 IDS A IDP 的 一 般 原 则 : 为 了 可 用 性 ， 它 们 必须 提供 极 低 的 错误 报警 
率 。 如 上 所 述 ， 对 于 实现 足够 低 的 错误 报警 率 ， 由 于 很 难 充分 设置 正常 系统 行为 的 基准 ， 异 
常 检测 系统 面临 严峻 挑战 。 然 而 ， 研 究 人 员 继 续 改 善 异 常 检测 技术 。 和 信 侵 检测 软件 发 展 成 为 
采用 签名 、 异 常 算法 和 其 他 算法 ， 并 加 以 组 合 ， 以 得 到 更 为 准确 的 异常 检测 率 。 


15.6.4 ”病毒 防护 


如 前 所 述 ， 病 毒 也 可 能 确实 造成 严重 的 系统 破坏 。 因 此 病毒 防护 是 一 个 重要 的 安全 问 
题 。 防 病毒 程序 通常 用 于 提供 这 种 保护 。 有 些 程序 只 对 特定 已 知 病毒 有 效 。 它 们 根据 构成 病 
毒 的 已 知 的 特定 指令 模式 ， 搜 索 系 统 上 的 所 有 程序 。 当 它们 找到 一 个 已 知 模式 ， 就 移 除 指 
令 ， 去 除 (disinfect) 程序 的 病毒 。 防 病毒 程序 可 能 需要 查找 数 千 种 类 型 的 病毒 。 

病毒 和 防 病毒 软件 继续 变 得 越 来 越 复杂 。 有 些 病毒 在 感染 其 他 软件 时 修改 自己 ， 以 避免 
防 病毒 程序 的 基本 模式 匹配 方法 。 防 病毒 程序 现在 反 过 来 查找 一 簇 模 式 而 非 单一 模式 ， 以 识 
别 病毒 。 Bib, 有些 防 病 毒 程序 采用 各 种 检测 算法 。 它 们 在 检测 签名 前 可 以 解压 缩 已 压缩 
的 病毒 。 有 些 还 会 查找 进程 异常 。 例 如 ， 打 开 一 个 可 执行 文件 以 执行 写 和 的 进程 是 可 疑 的 ， 
除非 它 是 编译 器 。 另 一 种 流行 技术 是 在 沙 箱 (sandbox) 中 运行 程序 ， 沙 箱 是 系统 的 一 个 受 控 
或 仿真 的 部 分 。 防 病毒 软件 首先 分 析 代 码 在 沙 箱 中 的 行为 ， 然 后 让 它 不 受 监视 的 运行 。 有 些 
防 病毒 程序 不 仅仅 是 扫描 文件 系统 中 的 文件 ， 而 是 提供 完全 的 保护 。 它 们 搜索 引导 扇 区 、 内 
存 、 收 发 邮件 、 下 载 文件 、 可 移 除 设备 或 媒介 上 的 文件 ， 等 等 。 

计算 机 病毒 的 最 佳 保 护 是 预防 ， 或 者 是 实行 安全 计算 (safe computing)。 购 买 软件 供应 
商 的 未 拆 封 的 软件 、 避 免 公共 来 源 的 或 者 交换 磁盘 的 免费 或 盗版 软件 ， 提 供 了 预防 感染 的 最 
佳 途径 。 然 而 ， 即 便 是 合法 软件 应 用 程序 的 新 副本 也 不 能 免疫 病毒 感染 : 在 少数 情况 下 ， 不 
满 软件 公司 的 员工 让 软件 程序 的 主要 副本 感染 上 了 病毒 ， 并 对 公司 造成 经 济 损害 。 对 于 宏 病 
毒 ， 一 种 防御 是 ， 采 用 多 信息 文本 格式 (Rich Text Format, RTF) 来 交换 Microsoft Word X 
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档 。 不 同 于 原本 的 Word 格式 ，RTF 没有 包含 附加 宏 的 能 力 。 

男 外 一 种 防范 是 ， 避 人 免 打 开 未 知 用 户 的 任何 电子 邮件 附件 。 遗 憾 的 是 ， 历 史 表 明 ， 电 子 
邮件 漏洞 的 出 现 与 修复 一 样 快 。 例 如 ，2000 ERE k (love bug) 病毒 就 是 假装 成 一 个 来 自 
朋友 的 情书 ， 在 世界 范围 内 广 为 传 播 。 一 旦 接收 者 打开 了 附件 的 Visual Basic 脚本 ， 病 毒 通 
过 发 送 自己 到 电子 邮件 的 联系 人 列表 中 的 第 一 个 地 址 。 幸 好 ， 除 了 堵塞 电子 邮件 系统 和 用 户 
收 件 箱 ， 它 相对 无 害 。 然 而 ， 它 确实 使 得 “不 要 打开 来 自 未 知 用 户 的 邮件 附件 ”失效 。 一 种 
更 为 有 效 的 防御 方法 是 ， 不 要 打开 任何 包含 可 执行 代码 的 附件 。 有 些 公司 现在 强制 执行 这 种 
策略 : 删除 所 有 电子 邮件 的 传人 附件 。 

另外 一 种 保障 措施 虽然 不 能 预防 感染 ， 但 是 确实 允许 及 早 检测 。 用 户 必 须 首 先 完全 格式 
化 硬盘 ， 特 别 是 引导 扇 区 ， 这 是 病毒 经 常 攻 击 的 目标 。 只 有 安全 软件 才 上 传 ， 每 个 程序 的 签 
名 用 于 安全 的 消息 摘要 的 计算 。 文 件 名 称 和 关联 消息 摘要 的 生成 列表 ， 必 须 保 持 免 于 未 经 授 
权 的 访问 。 定 期 地 或 每 次 运行 一 个 程序 时 ， 操 作 系统 重新 计算 签名 ， 并 将 其 与 原来 列表 上 的 
签名 进行 比较 ; 任何 差异 都 可 以 作为 可 能 感染 的 警告 。 这 种 技术 可 以 与 其 他 技术 结合 使 用 。 
例如 ， 可 以 采用 一 个 高 开销 的 防 病毒 扫描 ， 如 沙 箱 。 如 果 程 序 通 过 测试 ， 可 以 为 它 创建 签 
名 。 如 果 签 名 匹配 下 次 运行 的 程序 ， 则 不 再 需要 病毒 扫描 。 


Tripwire 文件 系统 

异常 检测 工具 的 一 个 例子 是 由 普度 大 学 为 UNIX 设计 的 Tripwire 文件 系统 (Tripwire 
file system) 的 完整 性 检测 工具 。Tripwire 的 执行 前 提 是 ， 许 多 入 侵 导 致 系统 目录 和 文件 
的 修改 。 例 如 ， 入 侵 者 可 能 修改 系统 程序 ， 例 如 插入 带 有 特洛伊 木马 的 副本 ， 或 者 可 能 在 
AP shell 搜索 路 径 的 目录 中 插入 新 的 程序 。 或 者 入 侵 者 可 能 删除 系统 日 志文 件 ， 以 掩盖 
踪迹 。Tripwire 是 监视 文件 系统 的 一 个 工具 ， 它 监控 添加 、 删 除 和 修改 文件 等 操作 ， 并 提 
醒 系 统管 理 员 注 意 这 些 变 化 。 

Tripwire 的 执行 受 控 于 配置 文件 tw.config， 它 枚 举 了 需要 监控 更 改 、 删 除 和 添加 的 
目录 和 文件 。 这 个 配置 文件 的 每 个 条 目 包含 一 个 选择 掩 码 ， 以 便 指定 需要 监控 更 改 的 文件 
属性 (inode BE). Pin, 选择 掩 码 可 以 指定 监视 文件 权限 ， 但 是 忽略 文件 访问 时 间 。 此 
外 ， 选 择 掩 码 还 可 指定 监控 文件 更 改 。 监 控 文件 哈 希 的 更 改 与 监控 文件 本 身 一 样 好 ,而 且 
存储 文件 哈 希 与 复制 文件 本 身 相 比 需要 更 少 空间 。 

最 初 运行 时 ，Tripwire 输入 文件 tw.config， 并 且 为 每 个 文件 或 目录 计算 签名 ， 这 
些 签名 包括 监控 属性 (inode 属性 和 哈 希 值 )。 这 些 签 名 存储 在 数据 库 中 。 随 后 运行 时 ， 
Tripwire 输入 文件 tw.config 和 以 前 存储 的 数据 库 ， 重 新 计算 tw.config 的 文件 和 目录 
的 签名 ， 并 将 这 个 签名 与 先前 计算 的 数据 库 中 的 签名 (如 果 有 ) 进行 比较 。 需 要 报告 管理 
员 的 事件 包括 ， 新 签名 不 同 于 数据 库 内 的 任何 监控 的 文件 或 目录 (更 改 的 文件 )， 新 签名 
以 前 不 在 数据 库 中 的 任何 监控 的 文件 或 目录 (添加 的 文件 )， 以 及 新 签名 现在 不 在 数据 库 
中 的 任何 监控 的 文件 或 目录 (删除 的 文件 )。 

Tripwire 虽然 对 许多 攻击 有 效 ， 但 是 确实 也 有 局 限 性 。 也 许 ， 最 明显 的 是 需要 保 
护 Tripwire 程序 及 其 相关 文件 ， 特 别 是 数据 库 文件 ， 以 避免 未 经 授权 的 修改 。 因 此 ， 
Tripwire 及 其 相关 文件 应 该 存储 在 一 些 防 往 改 介质 上 ， 例 如 写 保护 磁盘 或 者 可 以 严格 控制 
登录 的 安全 服务 器 。 遗 憾 的 是 ， 在 合法 更 新 文件 和 目录 后 ， 更 新 数据 库 就 不 那么 方便 了 。 
第 二 个 局 限 是 ， 一 些 安全 相关 的 文件 ， 例 如 系统 日 志文 件 ， 应 当 随 着 时 间 的 推移 而 改变 ， 
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{i Tripwire 没有 区 分 授权 和 未 授权 的 更 改 。 所 以 ， 例 如 系统 日 志 的 修改 〈 不 是 删除 ) 可 
能 逃脱 Tripwire 的 检测 ， 因 为 系统 日 志 在 正常 情况 下 也 会 更 改 。 在 这 种 情况 下 ，Tripwire 
最 多 可 做 的 是 检查 某 些 明显 的 不 一 致 ( 例 如， 缩小 的 日 志文 件 )。 免 费 和 商业 的 Tripwire 
可 以 从 http://tripwire.org 和 http://tripwire.com 获取 。 


15.6.5 审计 、 记 账 和 日 志 


审计 、 记 账 和 日 志 可 能 降低 系统 性 能 ， 但 是 它们 用 于 许多 领域 ， 包 括 安全 性 。 日 志 可 以 
是 通用 的 ， 也 可 以 是 特定 的 。 可 以 记录 所 有 系统 调用 的 执行 ， 以 便 分 析 程 序 行为 (或 不 当 行 
为 )。 更 经 常 的 是 ， 记 录 可 疑 事 件 。 认 证 失败 和 授权 失败 可 以 告诉 我 们 很 多 有 关 入 侵 企图 的 
事情 。 

记 账 是 安全 管理 员 套 件 中 的 另 一 种 潜在 工具 。 它 可 以 用 于 发 现 性 能 改变 ， 反 过 来 又 可 以 
揭示 安全 问题 。UNIX 计算 机 入 侵 的 一 个 早期 例子 是 由 Cliff Stoll 检测 的 ， 因 为 他 在 检查 记 
账 记 录 时 发 现 了 异常 现象 。 


15.7 保护 系统 和 网 络 的 防火 墙 


我 们 接 下 来 讨论 的 问题 是 可 信任 计算 机 如 何 安全 地 连接 到 不 可 信任 的 网 络 。 一 个 解决 
方案 是 ， 采 用 防火 墙 来 分 离 可 信任 与 不 可 信任 系统 。 防 火 墙 (firewall) 是 计算 机 、 设 备 或 路 
由 器 ， 位 于 可 信任 与 不 可 信任 之 间 。 网 络 防 火 墙 限制 两 个 安全 域 ( security domain) 之 间 的 
网 络 访问 ， 并 且 监 控 和 记录 所 有 连接 。 它 可 以 基于 源 或 目的 地 址 、 源 或 目的 端口 或 连接 方 
向 ， 来 限制 连接 。 例 如 ，Web 服务 器 采用 HTTP 与 网 络 浏览 器 进行 通信 。 因 此 ， 防 火 墙 可 能 
只 允许 防火 墙 外 的 所 有 主机 与 防火 墙 内 的 Web 服务 器 使 用 HTTP 来 通信 。 例 如 ，Morris 的 
Internet 蠕虫 采用 finger 协议 来 人 侵 计 算 机 ， 所 以 finger 不 会 被 允许 通过 。 

事实 上 ， 网 络 防火 墙 可 以 将 网 络 分 成 多 个 域 。 一 个 通用 实现 是 : 将 Internet 作为 一 个 不 
可 信任 的 域 ; 将 半 可 信任 的 和 半 安 全 的 网 络 称 为 非 军 事 区 ( DeMilitarized Zone, DMZ), fF 
为 另外 一 个 域 ;将 一 家 公司 的 计算 机 作为 第 三 个 域 (图 15-10 )。 人 允许 的 连接 包括 从 Internet 
到 DMZ 计算 机 和 从 公司 计算 机 到 Internet ; 不 允许 的 连接 包括 从 Internet 到 公司 计算 机 和 
从 DMZ 计算 机 到 公司 计算 机 。 可 选 地 ， 可 控 的 通信 可 能 包括 从 DMZ 到 公司 计算 机 。 例 如 ， 
DMZ 的 Web 服务 器 可 能 需要 查询 公司 网 络 的 数据 库 服务 器 。 然 而 ， 通 过 防火 墙 ， 访问 权限 
可 以 控制 ， 而且 任何 入 侵 的 DMZ 系统 无 法 访问 公司 计算 机 。 


从 公司 计算 机 访问 Internet 











从 Intemet 访 问 DMZ| = 二 Di 


os <3 


图 15-10 通过 防火 墙 实现 域 分 离 
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当然 ,防火墙 本 身 必须 是 安全 的 和 防 攻击 的 ， 否则 ， 连 接 的 安全 可 能 受到 影响 。 此 外 ， 
防火 墙 无 法 防止 隧道 (tunnel) 攻击 (在 防火 墙 允许 的 协议 或 连接 内 传播 的 攻击 )。 例 如 ， 防 
火 墙 不 能 停止 对 Web 服务 器 的 缓冲 区 洲 出 攻击 ， 因 为 它 允 许 HTTP 连接 ， 无 法 阻止 容纳 攻 
击 的 HTTP 连接 的 内 容 。 同 样 ， 拒 绝 服务 攻击 可 以 像 攻 击 任何 其 他 机 器 那样 攻击 防火 墙 。 防 
火 墙 的 另 一 漏洞 是 欺骗 (spoofing)， 即 未 经 授权 的 主机 通过 符合 一 定 授 权 标准 ， 假 装 成 授权 
的 主机 。 例 如 ， 如 果 防 火 墙 规则 允许 一 台 主 机 的 连接 ， 并 通过 IP 地 址 识别 这 个 主机 ， 则 另 
一 个 主机 可 以 采用 同样 地 址 发 送 数 据 包 ， 从 而 允许 通过 防火 墙 。 

除了 最 常见 的 网 络 防火 墙 外 ， 还 有 其 他 更 新 类 型 的 防火 墙 ， 它 们 各 有 优 缺 点 。 个 人 防 
火 墙 (personal firewall) 是 个 软件 层 ， 包 含 在 操作 系统 中 或 作为 一 个 应 用 程序 。 它 不 是 限 
制 安全 域 之 间 的 通信 ， 而 是 限制 与 给 定 主机 的 通信 。 例 如 ， 用 户 可 以 为 PC 添加 个 人 防火 
墙 ， 以 便 拒 绝 特洛伊 木马 访问 PC 连接 的 网 络 。 应 用 代理 防火 墙 ( application proxy firewall) 
理解 应 用 程序 通信 的 网 络 协议 。 例 如 ，SMTP 用 于 传输 邮件 。 首 先 应 用 代理 作为 SMTP AR 
务 器 来 接受 连接 :然后 启动 与 原来 目的 SMTP 服务 器 的 连接 。 它 在 转发 消息 时 可 以 监视 
流量 ， 查 看 和 禁用 非法 命令 或 利用 错误 的 攻击 ， 等 等 。 有 些 防 火 墙 专 为 一 种 特定 协议 而 设 
计 。 例 如 ，XML 防火 墙 (XML firewall) 的 具体 目的 是 : 分 析 XML 流量 ， 阻 塞 不 允许 的 或 
格式 错误 的 XML。 系 统 调用 防火 墙 ( system-call firewall) 位 于 应 用 和 内 核 之 间 ， 监 控 系 统 
调用 的 执行 。 例 如 ， 在 Solaris 10 中 ,“ 最 低 特权 ”功能 有 一 个 列表 ， 包 含 超过 50 个 系统 调 
用 ， 这 些 是 进程 可 以 允许 或 不 允许 调用 的 。 例 如 ， 无 需 生 成 其 他 进程 的 进程 可 以 移 除 这 种 
能 力 。 


15.8 计算 机 安全 等 级 


美国 国防 部 的 “可 信 计 算 机 系统 评估 准则 ”规定 了 4 种 系统 安全 等 级 : A, B, CMD, 
这 个 规范 广泛 用 于 确定 设施 的 安全 性 ， 并 建立 安全 解决 方案 ， 所 以 这 里 我 们 讨论 它 。 最 低 
的 等 级 是 D 级 或 最 小 保护 。D 级 只 包含 一 个 级 别 ， 用 于 不 能 符合 任何 其 他 安全 等 级 的 系统 。 
例如 ，MS-DOS 和 Windows 3.1 都 属于 D 级 。 

C 级 ,下 一 个 安全 等 级 ,采用 审计 能 力 ， 为 用 户 及 其 行为 提供 酌情 保护 和 负责 。C 级 分 
为 Cl 和 C2。CI1 级 系统 包含 一 些 控制 形式 ， 以 便 允 许 用 户 保护 私有 信息 和 禁止 其 他 用 户 意 
外 读 取 或 破坏 数据 。 对 于 C1 环境 ， 合 作用 户 采 用 相同 敏感 层次 来 访问 数据 。 大 部 分 UNIX 
版 本 都 属于 C1 类 。 

用 于 正确 执行 安全 策略 的 所 有 计算 机 保护 系统 的 集合 (硬件 、 软 件 、 固 件 ) 称 为 可 信 计 
算 机 基 (Trusted Computing Base, TCB), Cl 系统 的 TCB 允许 用 户 规定 和 控制 对 象 共享 ， 
以 便 控制 用 户 和 文件 之 间 的 访问 。 另 外 ，TCB 要 求 用 户 在 开始 任何 活动 之 前 识别 自己 ， 以 
(E TCB 调停 。 这 种 识别 采用 保护 机 制 或 密码 来 完成 。TCB 保护 认证 数据 ， 以 免 受 未 经 授权 
用 户 的 访问 。 

C2 级 系统 除了 满足 C1 级 系统 的 要 求 ， 添 加 了 个 人 级 别 的 访问 控制 ， 例 如 ， 文 件 的 访 
问 权限 可 以 指定 为 个 人 级 别 。 此 外 ， 基 于 个 人 身份 ， 系 统管 理 员 可 以 选择 性 地 审计 任意 一 个 
或 多 个 用 户 的 活动 。TCB 也 会 保护 自身 ， 免 受 代码 或 数据 结构 的 修改 。 另 外 ， 先 前 用 户 生 
成 的 信息 不 能 用 于 另外 用 户 ， 尽 管 他 可 以 访问 这 个 已 经 释放 回 到 系统 的 存储 对 象 。 有 些 特 殊 
的 安全 UNIX 版 本 已 经 获得 C2 级 认证 。 

B 级 强制 保护 系统 具有 C2 级 系统 的 所 有 属性 。 此 外 ， 它 们 为 系统 的 每 个 对 和 象 贴 上 了 敏 
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感 标 签 。B1 级 TCB 维护 这 些 标签 ， 以 便 用 于 实施 访问 控制 的 决定 。 例 如 ， 机 密级 别 的 用 户 
无 法 访问 更 敏感 的 秘密 级 别 的 文件 。TCB 在 任何 用 户 可 读 的 输出 的 页 由 和 页 脚 上 ， 还 标注 
敏感 层次 。 除 了 普通 的 用 户 名 - 密码 的 认证 信息 ，TCB 还 维护 个 人 用 户 的 许可 和 授权 ， 并 
且 至 少 支持 两 层 安全 。 这 些 层 是 分 级 的 ; 一 个 用 户 可 以 访问 任何 对 象 ， 只 要 它 的 敏感 度 标签 
等 于 或 低 于 他 的 安全 许可 。 例 如 ， 当 没有 其 他 访问 控制 时 ， 机 密 等 级 的 用 户 可 以 访问 加 密 等 
级 的 文件 。 通 过 采用 不 同 的 地 址 空间 ， 也 可 以 隔离 进程 。 

B2 级 系统 将 敏感 标签 扩展 到 每 个 系统 资源 ， 如 存储 对 象 。 物 理 设备 分 配 了 最 小 和 最 大 
的 安全 等 级 ， 系 统 采用 这 两 个 极 值 来 强制 执行 由 设备 所 处 物理 环境 强加 的 约束 。 此 外 ，B2 
级 系统 支持 隐蔽 信道 和 用 于 利用 隐蔽 信道 的 事件 审计 。 

B3 级 系统 允许 创建 访问 控制 列表 ， 用 于 表示 不 能 访问 给 定 命名 对 象 的 用 户 或 组 。TCB 
还 包括 机 制 ， 以 便 监控 可 能 表示 违反 安全 策略 的 事件 。 这 个 机 制 通报 安全 管理 员 ， 如 有 必 
要 ， 采 用 最 小 破坏 方式 来 终止 事件 。 

最 高 等 级 是 A 级 。 从 架构 上 讲 ，A1l 级 系统 在 功能 上 等 同 于 B 级 系统 ， 但 是 它 采 用 正 
式 的 设计 规范 和 验证 技术 ， 高 度 保证 了 TCB 已 经 正确 实现 。 高 于 Al 级 的 系统 可 以 在 可 信 
条 件 下 由 可 信人 员 设 计 和 开发 。 

使 用 TCB 只 是 确保 系统 可 以 强制 执行 安全 策略 的 各 个 方面 ; TCB 没有 指定 安全 策略 是 
人 什么。 通常， 给 定 计算 环境 制定 安全 策略 以 便 认证 ( certification)， 并 且 制 定 计划 以 便 由 安 
全 机 构 (美国 计算 机 安全 中 心 ) 来 认可 (accredit)。 有 的 计算 环境 可 以 要 求 其 他 认证 ， 例 如 
由 TEMPEST 提供 的 认证 ， 这 个 认证 用 于 防御 电子 窃听 。 例 如 ，TEMPEST 认证 的 系统 能 让 
终端 屏蔽 ， 以 防止 电磁 泄露 。 这 种 屏蔽 确保 了 终端 的 房间 或 大 楼 之 外 的 设备 不 能 检测 终端 显 
示 哪 些 信息 。 


15.9 例子 : Windows 7 


Microsoft Windows 7 是 个 通用 操作 系统 ， 支 持 各 种 安全 功能 和 方法 。 本 节 分 析 Windows 7 
使 用 的 执行 安全 功能 的 特性 。 有 关 Windows 7 的 更 多 信息 和 背景 参见 第 17 章 。 

Windows 7 的 安全 模型 是 基于 用 户 账户 的 概念 。Windows 7 允许 创建 任意 数量 的 用 户 账 
户 ， 它 们 可 以 按 任何 方式 分 组 。 可 以 根据 需要 来 允许 或 拒绝 对 系统 对 象 的 访问 。 用 户 通 过 
唯一 安全 JD 来 向 系统 标识 。 当 用 户 登录 时 ，Windows 7 创建 安全 访问 令 牌 ( security access 
token)， 以 便 包 括 用 户 的 安全 ID、 用 户 所 属 组 的 安全 ID 和 用 户 拥 有 的 任何 特权 的 列表 。 特 
权 示 例 包括 : 备份 文件 和 目录 、 关 闭 计 算 机 、 交 互 登 录 和 更 改 系 统 时 钟 等 。Windows 7 运行 
的 每 个 用 户 进 程 会 得 到 访问 令 牌 的 副本 。 每 当 用 户 或 者 用 户 进程 尝试 访问 对 象 时 ， 系 统 利用 
访问 令 牌 中 的 安全 于 来 允许 或 拒绝 对 系统 对 象 的 访问 。 用 户 账 户 的 认证 通常 通过 用 户 名 和 
密码 来 完成 ，Windows 7 的 模块 化 设计 还 允许 定制 认证 包 的 开发 。 例 如 ， 视 网 膜 〈 或 眼睛 ) 
扫描 器 可 以 用 于 验证 宣称 的 用 户 身 份 是 否 与 实际 相符 。 

Windows 7 采用 主题 概念 ， 以 便 确保 用 户 运 行 的 程序 对 系统 的 访问 权限 是 系统 授权 给 
用 户 的 访问 权限 的 子 集 。 主 题 ( subject) 用 于 跟踪 和 管理 每 个 用 户 运行 程序 的 权限 。 它 包括 
用 户 的 访问 令 牌 和 代表 用 户 运行 的 程序 。 由 于 Windows 7 使 用 客户 机 - 服务 器 模式 运行 ， 
有 两 类 主题 用 于 控制 访问 : 简单 主题 和 服务 器 主题 。 简 单 主题 的 一 个 例子 是 用 户 在 登录 后 
执行 的 应 用 程序 。 简 单 主题 ( simple subject) 根据 用 户 的 安全 访问 令 牌 来 获得 安全 上 下 文 
(security context)。 服 务 器 主题 ( server subject) 是 按 保护 服务 器 来 实现 的 进程 ， 在 代替 客户 
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机 执行 任务 时 采用 客户 机 的 安全 上 下 文 。 

如 15.7 节 所 述 ， 审 计 是 一 个 很 有 用 的 安全 技术 。Windows 7 有 内 置 审计 ， 人 允许 监控 许 
多 常见 的 安全 威胁 。 示 例 包括 : 登录 和 注销 事件 的 失败 审计 ， 以 检测 随机 密码 人 侵 ; 登录 和 
注销 事件 的 成 功 审 计 ， 以 检测 异常 时 段 的 登录 活动 ; 成 功 和 失败 写 入 访问 的 审计 ， 以 便 执行 
文件 跟踪 病毒 爆发 ; 成 功 和 失败 文件 访问 的 审计 ， 以 检测 敏感 文件 的 访问 。 

Windows 添加 了 强制 完整 性 控制 ， 它 为 每 个 安全 对 象 和 主题 分 配 完整 性 标签 ( integrity 
label) 。 给 定 主题 为 了 要 访问 对 象 ， 必 须 在 酌情 访问 控制 列表 中 具有 请 求 权 限 ， 它 的 完 
整 性 标签 必须 等 于 或 高 于 安全 对 象 的 (对 于 给 定 的 操作 )。Windows 7 的 完整 性 标签 包 
E ( 按 升 序 ) : 不 可 信 、 低 、 中 、 高 和 系统 。 另 外 , 三 个 访问 掩 码 位 可 以 用 于 完整 性 标签 : 
NoReadUp, NoWriteUp 和 NoExecuteUp。NoWriteUp 是 自动 强制 的 ， 所 以 较 低 完整 性 的 对 
象 不 能 对 较 高 完整 性 的 对 象 执 行 写 人 操作。 然而 ， 除 非 安全 描述 符 明确 阻止 ， 否 则 它 可 以 执 
行 读 取 或 执行 操作 。 

对 于 没有 明确 的 完整 性 标签 的 安全 对 象 ， 可 以 分 配 中 等 的 默认 标签 。 在 登录 时 ， 分配 
给 定 主 题 的 标签 。 例 如 ， 非 管理 用 户 具 有 中 等 的 完整 性 标签 。 除 了 完整 性 标签 外 ，Windows 
Vista 还 添加 了 用 户 账户 控制 (User Account Control，UAC)， 它 代表 具有 两 个 独立 令 牌 的 
管理 账户 (不 是 内 置 管 理 员 账户 )。 一 个 令 牌 用 于 正常 使 用 ,禁用 了 内 置 的 管理 员 组 ， 并 具 
有 中 等 的 默认 标签 。 另 一 个 令 牌 为 了 提升 使 用 ， 有 已 启用 的 内 置 的 管理 员 组 和 高 的 完整 性 
标签 。 

Windows 7 中 对 象 的 安全 属性 通过 安全 描述 符 ( security descriptor) 来 描述 。 安 全 描 
述 符 包 括 : 对 象 所 有 者 的 安全 ID (这 个 所 有 者 可 以 更 改 访问 权限 )、 仅 由 POSIX 子 系统 
使 用 的 组 安全 ID、 用 于 标识 哪些 用 户 或 群 允 许 访问 (以 及 哪些 被 明确 拒绝 ) 的 定制 的 访 
问 控制 列表 以 及 用 于 控制 系统 生成 哪些 审计 消息 的 系统 访问 控制 列表 。 可 选 地 ， 系 统 访问 
控制 列表 可 以 设置 对 象 的 完整 性 和 标识 阻止 哪些 较 低 完整 性 主题 : 读 取 、 写 入 (始终 强制 ) 
或 执行 。 例 如 ,文件 foo .bar 的 安全 描述 符 可 能 拥有 所 有 者 avi 和 定制 的 访问 控制 列表 : 

© avi 一 一 所 有 访问 

e 组 cs 一 一 读 - 写 访 问 

e HP cliff 一 一 无 法 访问 
此 外 ， 它 可 能 有 一 个 系统 访问 控制 列表 ， 以 告诉 系统 审计 每 个 人 的 输入 ， 还 有 一 个 中 等 的 完 
整 性 标签 ， 以 拒绝 更 低 完 整 性 主题 的 读 取 、 写 人 和 执行 。 

访问 控制 列表 由 访问 控制 条 目 组 成 ， 每 个 条 目 包括 个 人 安全 ID 和 定义 所 有 可 能 对 象 操作 
的 访问 掩 码 (每 个 操作 的 值 为 AccessAllowed 或 AccessDenied)。Windows 7 中 的 文件 可 能 具有 
以 下 访问 类 型 : ReadData, WriteData, AppendData, Execute, ReadExtendedAttribute, 
WriteExtendedAttribute、ReadAttributes 和 WriteAttributes。 下 面 分 析 访问 类 型 如 
何 精细 控制 对 象 访 问 。 

Windows 7 将 对 象 分 为 两 类 : 容器 类 对 象 和 非 容器 类 对 象 。 容 器 类 对 象 (container object), 
如 目录 ， 可 以 在 逻辑 上 包含 其 他 对 象 。 默 认 情 况 下 ， 当 在 容器 对 象 中 创建 一 个 对 象 时 ， 新 对 
象 继承 父 对 象 的 权限 。 同 样 ， 如 果 用 户 将 一 个 文件 从 一 个 目录 复制 到 一 个 新 的 目录 ， 这 个 文 
件 会 继承 目标 目录 的 权限 。 非 容器 对 象 ( noncontainer object) 不 继承 其 他 权限 。 另 外 ， 如 果 
一 个 目录 的 权限 被 更 改 了 ， 新 的 权限 不 会 自动 应 用 于 现 有 文件 和 子 目 录 ; 如 果 用 户 愿意 ， 可 
以 明确 地 应 用 它们 。 
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系统 管理 员 可 以 禁止 系统 打印 机 某 段 时 间 的 打印 ， 可 以 采用 Windows 7 性 能 监视 器 来 
帮助 解决 问题 。 通 常 ，Windows 7 提供 了 很 好 的 功能 ， 以 帮助 确保 安全 的 计算 环境 。 然 而 ， 
默认 情况 下 ， 许 多 这 些 功能 并 不 启用 ， 这 可 能 是 Windows 7 系统 上 有 无 数 安 全 漏洞 的 原因 
之 一 。 另 一 个 原因 是 : Windows 7 在 系统 启动 时 启动 的 大 量 服务 ， 以 及 Windows 7 系统 通 
常安 装 的 应 用 程序 的 数量 。 对 于 真正 的 多 用 户 环境 ， 系 统管 理 员 应 该 制定 安全 计划 ， 通 过 
Windows 7 提供 的 功能 和 其 他 安全 工具 来 加 以 实施 。 


15.10 shaq 


保护 是 一 个 内 部 问题 。 相 反 ， 安 全 必须 考虑 计算 机 系统 和 系统 使 用 环境 ， 如 人 员 、 大 
楼 、 企 业 、 贵 重 物品 和 威胁 等 。 

计算 机 系统 存储 的 数据 必须 加 以 保护 ， 防 止 未 经 授权 的 访问 、 恶 意 的 破坏 或 更 改 以 及 不 
一 致 的 意外 引入 。 与 防止 数据 的 恶意 访问 相 比 ， 防 止 数 据 一 致 性 的 意外 丢失 更 加 容易 。 完 全 
杜绝 计算 机 系统 存储 数据 的 恶意 滥用 是 不 可 能 的 ; 但 是 可 以 使 得 罪犯 付出 足够 高 的 代价 ， 以 
便 阻 止 大 多 数 (如 果 不 是 全 部 ) 在 没有 适当 权限 时 尝试 访问 这 些 信息 。 

对 程序 和 单个 或 多 个 计算 机 ， 可 以 发 起 多 种 类 型 的 攻击 。 堆 栈 和 缓冲 区 的 溢出 技术 允许 
成 功 的 攻击 者 来 改变 系统 访问 的 级 别 。 病 毒 和 里 虫 可 以 自我 繁殖 ， 有 时 感染 数 千 台 计 算 机 。 
拒绝 服务 攻击 防止 合法 使 用 目标 系统 。 

加 密 限 制 了 数据 接收 者 的 域 ， 而 认证 限制 了 发 送 者 的 域 。 加 密 用 于 提供 存储 或 传输 数据 
的 机 密 性 。 对 称 加 密 需 要 共享 密 钥 ， 而 非 对称 加 密 提 供 公 钥 和 私 钥 。 认 证 ， 结 合 哈 希 ， 可 以 
证 明 数 据 没 有 更 改 。 

用 户 认证 方法 用 于 识别 系统 的 合法 用 户 。 除 了 标准 的 用 户 名 和 密码 保护 ， 有 多 种 认证 方 
法 。 例 如 ,一 次 性 密码 随 会 话 而 改变 ， 以 避免 重播 攻击 。 双 因素 认证 需要 两 种 形式 的 认证 ， 
如 带 有 激活 PIN 的 硬件 计算 器 。 多 重 因 素 认证 使 用 三 种 或 更 多 种 形式 的 认证 。 这 些 方法 大 
大 降低 了 伪造 认证 的 机 会 。 

预防 或 检测 安全 事故 的 方法 包括 : 入 侵 检测 系统 、 防 病毒 软件 、 系 统 事件 的 审计 和 记 
录 、 系 统 软件 更 改 的 监控 、 系 统 调用 监控 和 防火 墙 等 。 
习题 
15.1 采纳 更 好 的 编程 方法 或 使 用 特殊 的 硬件 支持 ， 可 以 避免 缓冲 区 溢出 攻击 。 讨 论 这 些 解决 方案 。 
15.2 ”密码 可 能 通过 各 种 途径 被 其 他 用 户 得 到 。 有 没有 一 种 简单 方法 来 检测 是 否 泄露 密码 ? 解释 你 的 

答案 。 

153 ”与 用 户 密码 一 起 使 用 的 “ 盐 ” (salt) 有 什么 目的 ? 应 该 在 哪里 存放 “ 盐 ”? 应 该 如 何 使 用 它 ? 
15.4 所 有 密码 的 列表 保存 在 操作 系统 中 。 因 此 ， 如 果 用 户 设法 读 取 了 这 个 列表 ， 则 不 再 提供 密码 保 

护 。 建 议 一 个 方案 以 便 避 免 这 个 问题 。( 提 示 : 使 用 不 同 的 内 部 和 外 部 表示 。) 

15.5 UNIX 的 试验 补充 ， 允许 用 户 为 一 个 文件 连接 看 门 狗 程 序 。 每 当 程 序 请 求 访问 这 个 文件 时 ， 
watchdog 就 被 调用 。 然 后 ，watchdog 允许 或 拒绝 这 个 文件 的 访问 。 讨 论 安 全 看 门 狗 的 两 个 优点 

和 两 个 缺点 。 

15.6 UNIX 程序 COPS 扫描 给 定 系 统 的 可 能 安全 漏洞 ， 并 提醒 用 户 可 能 出 现 的 问题 。 使 用 这 样 的 安 

全 系统 的 两 种 潜在 危险 是 什么 ?这些 问题 如 何 限制 或 消除 ? 

15.7 讨论 一 种 方法 ， 以 便 连 到 Internet 的 系统 管理 员 设 计 系统 来 减少 或 消除 蠕虫 伤害 。 建 议 的 改变 有 
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什么 缺点 ? 

15.8 讨论 支持 或 反对 关于 Robert Morris, Jn 的 司法 判决 ， 他 创造 并 传播 了 15.3.1 节 的 Internet 
蠕虫 。 

15.9 列 出 银行 计算 机 系统 的 六 项 安全 隐患 。 对 于 每 项 ， 说 明 它 与 物理 环境 、 人 员 或 者 操作 系统 安全 
的 关系 。 

15.10 计算 机 存储 数据 的 加 密 的 两 个 优点 是 什么 ? 

15.11 什么 常用 计算 机 程序 容易 受到 中 间 人 攻击 ? 讨论 防止 这 种 形式 攻击 的 解决 方案 。 

15.12 ”比较 对 称 和 非 对 称 的 加 密 方案 ， 讨 论 分 布 式 系统 使 用 一 种 或 另 一 种 的 环境 。 

15.13 JTA Dian (Er, n (m)) 没有 提供 认证 发 送 者 ? 这 样 的 加 密 可 以 有 什么 用 途 ? 

15.14 讨论 如 何 使 用 非 对 称 加 密 算法 以 便 实现 如 下 目标 : 
a. 认证 ; 接收 者 知道 只 有 发 送 者 才能 生成 消息 。 
b. RE: 只 有 接收 者 才能 解密 消息 。 
c. 认证 与 保密 : 只 有 接收 者 才能 解密 消息 ， 而 且 接 收 者 知道 只 有 发 送 者 才能 生成 消息 。 

15.15 考虑 一 个 每 天 生成 1000 万 条 审计 记录 的 系统 。 假 设 在 这 个 系统 中 ,平均 每 天 有 10 次 攻击 。 每 
一 次 攻击 都 反映 在 20 条 记录 中 。 如 果 入 侵 检 测 系统 的 真实 报警 率 为 0.6， 误 报 率 为 0.000 5, 
系统 产生 的 警报 的 百分比 与 真正 的 入 侵 相 一 致 ? 


推荐 读物 

关于 安全 的 一 般 讨 论 参 见 Denning ( 1982 )、Pfleeger 和 Pfleeger ( 2006 ) 以 及 Tanenbaum ( 2010 )。 
关于 计算 机 网 络 ， 参 见 Kurose 和 了 Ross (2013 )。 

Rushby (1981) 和 Silverman (1983) 讨论 了 安全 系统 的 设计 和 验证 的 问题 。Schell ( 1983 ) 描述 
了 多 处 理 器 微机 的 安全 内 核 。Rushby 和 Randell ( 1983 ) 描述 了 分 布 式 安全 系统 。 

Morris #11 Thompson ( 1979 ) 讨论 密码 安全 。Morshedian ( 1986 ) 给 出 密码 偷盗 的 防止 方法 。 
Lamport (1981) 考虑 了 通过 非 安 全 通信 的 密码 认证 。Seely (1989) 分 析 了 密码 破解 的 问题 。 
Lehmann ( 1987 ) 和 Reid (1987) 讨论 了 计算 机 人 侵 。Thompson (1984) 讨论 了 可 信 计 算 机 程序 的 
问题 。 

Grampp 和 Morris (1984 )、Wood 和 Kochan (1985)、Farrow (1986 )、Filipski 和 Hanko 
(1986 ), Hecht 等 (1988 )、Kramer ( 1988 ) 以 及 Garfinkel 4 (2003 ) 讨论 了 UNIX 安全 。Bershad 和 
Pinkerton (1988) 给 出 了 BSDUNIX 的 看 门 狗 扩展 。 

Spafford (1989) 给 出 了 Internet 蠕虫 的 详细 技术 讨论 。Spafford 文章 与 其 他 三 篇 关于 Morris H. 
联网 蠕虫 的 文章 ， 发 表 在 《 Communications of the ACM )( Volume 32, Number 6, June 1989 ) 。 

Bellovin (1989 ) 描述 了 TCP/IP 协议 得 相关 的 安全 问题 。Cheswick 等 (2003 ) 讨论 了 防止 这 种 攻 
击 的 常用 机 制 。 保 护 网 络 免 受 内 部 攻击 的 另 一 种 方法 是 安全 拓扑 或 路 由 发 现 。Kent 等 (2000 )、Hu 等 
(2002 )、Zapata 和 Asokan (2002) 以 及 Hu 和 了 Perrig (2004) 给 出 了 安全 路 由 的 解决 方案 。Savage 等 
(2000) 分 析 了 分 布 式 拒绝 服务 攻击 ， 并 提出 了 了 王 追 漳 解决 方案 。Perlman (1988) 提出 了 一 种 方法 ， 
在 网 络 包括 恶意 路 由 器 时 诊断 出 错 。 

有 关 病 毒 和 蠕虫 的 信息 参见 http://www.securelist.com， 以 及 Ludwig (1998) #il Ludwig (2002). A— 
个 包含 最 新 安全 信息 的 网 站 是 : http://www.eeye.com/resources/security-center/research。 关 于 计算 机 单一 
文化 的 危害 的 文章 ， 人 参见 http://cryptome.org/cyberinsecurity.htm。 

Diffe 和 Hellman ( 1976 ) 以 及 Diffe 和 Hellman (1979) 首先 提出 了 公 钥 加 密 方案 。15.4.1 节 讨 
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论 的 算法 是 基于 公 钥 加 密 方案 的 ， 由 Rivest 等 (1978 ) 设计 。C. Kaufman ( 2002 ) 和 Stallings ( 2011 ) 
探讨 了 在 计算 机 系统 中 密码 学 的 使 用 。Akl( 1983 ) Davies ( 1983 ) Denning ( 1983 ) 和 Denning ( 1984 ) 
讨论 了 数字 签名 的 保护 。Schneier ( 1996 ) 以 及 Katz 和 Lindell ( 2008 ) 全 面 讨 论 了 加 密 学 。 

Rivest 等 (1978) 给 出 了 RSA 算法 。 有 关 NIST 的 AES 活动 的 信息 ， 参 见 http://www.nist.gov/aes ; 
有 关 美 国 的 其 他 加 密 标准 的 信息 ， 也 可 参见 这 个 网 站 。1999 年 ，SSL 3.0 略 作 修改 ， 并 以 名 称 为 TLS 
的 IETF RFC 来 提交 。 

15.6.3 节 的 假 报 警 影 响 IDS 效果 的 示例 基于 Axelsson ( 1999 )。15.6.5 节 的 Tripwire 描述 基于 Kim 和 
Spafford ( 1993 )。 系 统 调用 异常 检测 的 研究 讨论 参见 Forrest 等 (1996 )。 

当然 ,美国 政府 非常 关心 安全 。 美 国 国防 部 的 可 信 计 算 机 系统 评估 准则 (Department of Defense 
Trusted Computer System Evaluation Criteria) (DoD ( 1985 ))， 也 称 为 橙 皮 书 (Orange Book)， 描 述 了 
一 组 安全 级 别 和 每 个 级 别 的 计算 机 系统 需要 满足 的 特征 。 学 习 它 是 理解 安全 性 问题 的 一 个 好 的 开始 。 
Microsoft Windows NT Workstation Resource kit ( Microsoft ( 1996 ) ) 描述 了 NT 的 安全 模型 以 及 如 
何 使 用 这 个 模型 。 


参考 文献 


[Akl (1983)] S.G. Akl, “Digital Signatures: A Tutorial Survey”, Computer, Volume 
16, Number 2 (1983), pages 15-24. 


[Axelsson (1999)] S. Axelsson, “The Base-Rate Fallacy and Its Implications for 
Intrusion Detection”, Proceedings of the ACM Conference on Computer and Commu- 
nications Security (1999), pages 1-7. 


[Bellovin (1989)] S. M. Bellovin, “Security Problems in the TCP/IP Protocol 
Suite”, Computer Communications Review, Volume 19:2, (1989), pages 32-48. 


[Bershad and Pinkerton (1988)] B.N. Bershad and C. B. Pinkerton, “Watchdogs: 
Extending the Unix File System”, Proceedings of the Winter USENIX Conference 
(1988). 


[C. Kaufman (2002)] M. S. C. Kaufman, R. Perlman, Network Security: Private 
Communication in a Public World, Second Edition, Prentice Hall (2002). 


[Cheswick et al. (2003)] W. Cheswick, S. Bellovin, and A. Rubin, Firewalls and 
Internet Security: Repelling the Wily Hacker, Second Edition, Addison-Wesley 
(2003). 


[Davies (1983)] D. W. Davies, “Applying the RSA Digital Signature to Electronic 
Mail”, Computer, Volume 16, Number 2 (1983), pages 55-62. 


[Denning (1982)] D. E. Denning, Cryptography and Data Security, Addison- 
Wesley (1982). 


[Denning (1983)] D. E. Denning, “Protecting Public Keys and Signature Keys”, 
Computer, Volume 16, Number 2 (1983), pages 27-35. 


[Denning (1984)] D. E. Denning, “Digital Signatures with RSA and Other Public- 
Key Cryptosystems”, Communications of the ACM, Volume 27, Number 4 (1984), 
pages 388-392. 


[Diffie and Hellman (1976)] W. Diffie and M. E. Hellman, “New Directions in 
Cryptography”, IEEE Transactions on Information Theory, Volume 22, Number 6 
(1976), pages 644-654. 


[Diffie and Hellman (1979)] W. Diffie and M. E. Hellman, “Privacy and Authen- 
tication”, Proceedings of the IEEE (1979), pages 397-427. 


BISF RABE 


[DoD (1985)] Trusted Computer System Evaluation Criteria. Department of Defense 
(1985). 


[Farrow (1986)] R. Farrow, “Security Issues and Strategies for Users”, UNIX 
World (April 1986), pages 65-71. 


[Filipski and Hanko (1986)] A. Filipski and J. Hanko, “Making UNIX Secure”, 
Byte (April 1986), pages 113-128. 


[Forrest et al. (1996)] S. Forrest, S. A. Hofmeyr, and T. A. Longstaff, “A Sense 
of Self for UNIX Processes”, Proceedings of the IEEE Symposium on Security and 
Privacy (1996), pages 120-128. 


[Garfinkel et al. (2003)] S. Garfinkel, G. Spafford, and A. Schwartz, Practical 
UNIX & Internet Security, O'Reilly & Associates (2003). 


[Grampp and Morris (1984)] F. T. Grampp and R. H. Morris, “UNIX Operating- 
System Security”, AT&T Bell Laboratories Technical Journal, Volume 63, Number 
8 (1984), pages 1649-1672. 


[Hecht et al. (1988)] M. S. Hecht, A. Johri, R. Aditham, and T. J. Wei, “Experience 
Adding C2 Security Features to UNIX”, Proceedings of the Summer USENIX 
Conference (1988), pages 133-146. 


[Hu and Perrig (2004)] Y.-C. Hu and A. Perrig, “SPV: A Secure Path Vector 
Routing Scheme for Securing BGP”, Proceedings of ACM SIGCOMM Conference 
on Data Communication (2004). 


[Hu et al. (2002)] Y.-C. Hu, A. Perrig, and D. Johnson, “Ariadne: A Secure On- 
Demand Routing Protocol for Ad Hoc Networks”, Proceedings of the Annual 
International Conference on Mobile Computing and Networking (2002). 


[Katz and Lindell (2008)] J. Katz and Y. Lindell, Introduction to Modern Cryptog- 
raphy, Chapman & Hall/CRC Press (2008). 


[Kent et al. (2000)] S. Kent, C. Lynn, and K. Seo, “Secure Border Gateway Proto- 
col (Secure-BGP)”, IEEE Journal on Selected Areas in Communications, Volume 18, 
Number 4 (2000), pages 582-592. 


[Kim and Spafford (1993)] G. H. Kim and E. H. Spafford, “The Design and 
Implementation of Tripwire: A File System Integrity Checker”, Technical report, 
Purdue University (1993). 


[Kramer (1988)] S. M. Kramer, “Retaining SUID Programs in a Secure UNIX”, 
Proceedings of the Summer USENIX Conference (1988), pages 107-118. 


[Kurose and Ross (2013)] J. Kurose and K. Ross, Computer Networking —A Top- 
Down Approach, Sixth Edition, Addison-Wesley (2013). 


[Lamport (1981)] L. Lamport, “Password Authentication with Insecure Commu- 
nications”, Communications of the ACM, Volume 24, Number 11 (1981), pages 
770-772. 


[Lehmann (1987)] F. Lehmann, “Computer Break-Ins”, Communications of the 
ACM, Volume 30, Number 7 (1987), pages 584-585. 


[Ludwig (1998)] M. Ludwig, The Giant Black Book of Computer Viruses, Second 
Edition, American Eagle Publications (1998). 


[Ludwig (2002)] M. Ludwig, The Little Black Book of Email Viruses, American Eagle 
Publications (2002). 


[Microsoft (1996)] Microsoft Windows NT Workstation Resource Kit. Microsoft 
Press (1996). 


[Morris and Thompson (1979)] R. Morris and K. Thompson, “Password Secu- 
rity: A Case History”, Communications of the ACM, Volume 22, Number 11 (1979), 


471 


472 


REND 保护 与 颁 全 


pages 594-597. 


[Morshedian (1986)] D. Morshedian, “How to Fight Password Pirates”, Com- 
puter, Volume 19, Number 1 (1986). 


[Perlman (1988)] R. Perlman, Network Layer Protocols with Byzantine Robustness. 
PhD thesis, Massachusetts Institute of Technology (1988). 


[Pfleeger and Pfleeger (2006)] C. Pfleeger and S. Pfleeger, Security in Computing, 
Fourth Edition, Prentice Hall (2006). 


[Reid (1987)] B. Reid, “Reflections on Some Recent Widespread Computer 
Break-Ins”, Communications of the ACM, Volume 30, Number 2 (1987), pages 
103-105. 


[Rivest et al. (1978)] R. L. Rivest, A. Shamir, and L. Adleman, “On Digital Signa- 
tures and Public Key Cryptosystems”, Communications of the ACM, Volume 21, 
Number 2 (1978), pages 120-126. 


[Rushby (1981)] J. M. Rushby, “Design and Verification of Secure Systems”, 
Proceedings of the ACM Symposium on Operating Systems Principles (1981), pages 
12-21. 


[Rushby and Randell (1983)] J. Rushby and B. Randell, “A Distributed Secure 
System”, Computer, Volume 16, Number 7 (1983), pages 55-67. 


[Savage et al. (2000)] S. Savage, D. Wetherall, A. R. Karlin, and T. Anderson, 
“Practical Network Support for IP Traceback”, Proceedings of ACM SIGCOMM 
Conference on Data Communication (2000), pages 295-306. 


[Schell (1983)] R. R. Schell, “A Security Kernel for a Multiprocessor Microcom- 
puter”, Computer (1983), pages 47-53. 


[Schneier (1996)] B. Schneier, Applied Cryptography, Second Edition, John Wiley 
and Sons (1996). 


[Seely (1989)] D. Seely, “Password Cracking: A Game of Wits”, Communications 
of the ACM, Volume 32, Number 6 (1989), pages 700-704. 


[Silverman (1983)] J. M. Silverman, “Reflections on the Verification of the Secu- 
rity of an Operating System Kernel”, Proceedings of the ACM Symposium on 
Operating Systems Principles (1983), pages 143-154. 


[Spafford (1989)] E. H. Spafford, “The Internet Worm: Crisis and Aftermath”, 
Communications of the ACM, Volume 32, Number 6 (1989), pages 678-687. 


[Stallings (2011)] W. Stallings, Operating Systems, Seventh Edition, Prentice Hall 
(2011). 

[Tanenbaum (2010)] A.S. Tanenbaum, Computer Networks, Fifth Edition, Prentice 
Hall (2010). 


[Thompson (1984)] K. Thompson, “Reflections on Trusting Trust”, Communica- 
tions of ACM, Volume 27, Number 8 (1984), pages 761-763. 


[Wood and Kochan (1985)] P. Wood and S. Kochan, UNIX System Security, 
Hayden (1985). 


[Zapata and Asokan (2002)] M. Zapata and N. Asokan, “Securing Ad Hoc 
Routing Protocols”, Proc. 2002 ACM Workshop on Wireless Security (2002), 
pages 1-10. 


| 第 六 部 分 


Operating System Concepts, Ninth Edition 


案例 研究 





本 书 的 最 后 部 分 通过 分 析 实 际 的 操作 系统 ， 以 整合 前 面 所 述 的 概念 。 
我 们 详细 讨论 两 个 系统 : Linux 和 Windows 7。 选 择 Linux 有 多 个 原因 : 
它 流行 ， 它 免费 ， 它 是 个 功能 完备 的 UNIX 系统 。 这 让 操作 系统 学 生 有 
机 会 来 阅读 和 修改 实际 操作 系统 的 源 代码 。 

我 们 也 详细 讨论 Windows 7， 这 个 Microsoft 操作 系统 不 仅 在 单机 市 
场 而 且 在 工作 组 一 服务 器 市 场 越 来 越 流行 。 我 们 选择 Windows 7， 因 为 
它 提供 了 一 个 机 会 来 学 习 现 代 操 作 系 统 ， 而 该 系统 的 设计 与 实现 明显 不 
同 于 UNIX。 

此 外 ， 我 们 还 简 述 了 其 他 极 具 影 响 的 操作 系统 。 最 后 ， 我 们 还 在 线 
讨论 了 两 个 操作 系统 : FreeBSD 和 Mach, FreeBSD 系统 是 另 一 个 UNIX 
系统 。 然 而 ， 虽 然 Linux 综合 了 多 个 UNIX 系统 的 特点 ， 但 是 FreeBSD 
是 基于 BSD #4149, FreeBSD 源 代 码 与 Linux 源 代 码 一 样 ， 可 免费 获得 。 
Mach 是 个 现代 操作 系统 ， 它 兼容 BSD UNIX。 
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Linux 系统 


由 了 Robert Love 更 新 





本 章 深入 分 析 Linux 操作 系统 。 通 过 分 析 这 个 完整 的 、 真 实 的 系统 ， 可 以 看 到 前 面 讨 论 
的 概念 如 何 彼 此 相连 并 与 实际 相 联 。 

Linux 是 一 个 UNIX 的 变种 ， 近 几 十 年 来 很 流行 ， 它 支持 多 种 设备 ， 小 的 如 手机 ， 大 的 
如 占有 整个 房间 的 超级 计算 机 。 本 章 将 回顾 Linux 的 历程 ; 也 将 讨论 Linux 系统 的 用 户 与 程 
序 员 的 接口 ， 而 这 些 接口 很 大 程度 上 归功 于 UNIX 传统 ; 还 将 讨论 这 些 接口 的 设计 与 实现 。 
Linux 操作 系统 发 展 很 快 。 本 章 讨论 2012 年 发 布 的 Linux 3.2 AK. 

本 章 目标 

o 分 析 UNIX 操作 系统 的 历史 ，Linux WA UNIX; 分 析 Linux 的 设计 原理 。 

e 分 析 Linux 进程 模型 ， 说 明 Linux 如 何 调 度 进程 以 及 如 何 提 供 进程 间 通 信 。 

o 探究 Linux 的 内 存 管理 。 

© 探究 Linux 如 何 实现 文件 系统 和 管理 IO 设备 。 


16.1 Linux 历史 


Linux 看 起 来 很 像 任 何其 他 UNIX 系统 ;确实 ，UNIX 兼容 性 一 直 是 Linux 项 目的 主要 
设计 目标 。 但 是 ，Linux 比 大 多 数 UNIX 系统 更 新 。 它 的 开发 始 于 1991 年 ， 当 时 芬兰 大 学 
生 Linus Torvalds 开发 了 一 个 小 而 独立 的 内 核 ， 它 用 于 80386 处 理 器 (这 是 兼容 PC 的 Intel 
CPU 系列 的 第 一 个 真正 的 32 位 处 理 右 )。 

早 在 开发 初期 ，Linux 源 代 码 从 互联 网 上 就 可 以 免费 得 到 ， 不 但 没有 费用 而 且 发 布 限制 
极 少 。 因 此 ，Linux 历史 就 是 : 世界 各 地 的 许多 开发 人 员 ， 几 乎 完全 通过 互联 网 通信 来 合作 
开发 。Linux 系统 ， 从 只 是 实现 了 UNIX 系统 服务 的 一 个 小 子 集 的 最 初 内 核 ， 已 经 发 展 到 包 
括 现 代 UNIX 系统 的 所 有 功能 。 

早期 ，Linux 开发 主要 围绕 操作 系统 内 核 ， 它 是 核心 的 、 特 权 的 执行 程序 ， 它 管理 所 有 
系统 资源 并 且 直接 与 计算 机 硬件 交互 。 当 然 ， 我 们 不 仅 需 要 这 个 内 核 而 且 需 要 更 多 其 他 的 ， 
以 便 实 现 完整 的 操作 系统 。 因 此 ， 我 们 需要 区 分 Linux 内 核 与 Linux 完整 系统 。Linux AK 
(Linux kernel) 是 由 Linux 社团 从 零 开 始 开发 的 原创 软件 ; Linux 系统 (Linux system)， 正 如 
现在 大 家 所 知 的 ， 包 括 大 量 的 组 件 : 有 些 是 从 零 开始 编写 的 ， 有 些 是 从 其 他 开发 项 目 借鉴 而 
来 的 ， 而 还 有 一 些 是 与 其 他 团队 合作 开发 的 。 

Linux 基本 系统 是 应 用 程序 和 用 户 编程 的 一 个 标准 环境 ， 而 并 不 强制 任何 标准 手段 ， 以 
便 将 所 有 可 用 功能 作为 一 个 整体 加 以 管理 。 随 着 Linux 日 趋 成 熟 ， 在 Linux 系统 之 上 ， 需 
要 另外 一 层 功 能 。 这 种 需要 导致 了 多 种 Linux 发 行 。Linux 发 行 ( Linux distribution) 包括 
Linux 系统 的 所 有 标准 组 件 ; 还 有 一 套 管 理工 具 来 简化 初始 安装 和 后 续 升 级 Linux， 并 管理 
系统 的 其 他 软件 包 的 安装 和 删除 。 现 代 发 行 通常 也 包括 了 一 些 工 具 ， 如 文件 系统 的 管理 、 用 
户 账户 的 创建 和 管理 、 网 络 管理 、Web 浏览 器 、 字 处 理 器 等 。 
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16.1.1 Linux 内 核 


面向 大 众 的 首 个 Linux HÆ V 0.01， 发 布 于 1991 年 5 月 14 日 。 它 没有 网 络 功能 ， 只 
能 运行 在 80386 兼容 的 Intel 处 理 器 和 了 PC 硬件 上 ， 并 只 有 非常 有 限 的 设备 驱动 程序 支持 。 
虚拟 内 存 子 系统 也 是 相当 基本 的 ， 没 有 内 存 映 射 文件 ; 然而 ， 即 使 这 个 早期 版 本 ,仍然 支 
持 写 时 复制 (copy-on-write) 的 共享 页 面 ， 并 支持 保护 地 址 空间 。 唯 一 支持 的 文件 系统 是 
Minix 文件 系统 ， 因 为 早期 的 Linux 内 核 是 在 Minix 平台 上 交叉 开发 的 。 

Linux 1.0， 下 一 个 里 程 碑 ， 发 布 于 1994 年 3 月 14 日 。 这 个 发 布 归功 于 Linux 内 核 的 三 
年 快速 开发 。 单 个 最 大 的 新 功能 也 许 是 网 络 : 1.0 版 支持 UNIX 的 标准 TCP/IP 协议 ， 以 及 
BSD 兼容 的 网 络 编程 套 接 字 接口 。 新 增 的 设备 驱动 程序 支持 包括 ， 在 串 行 线路 或 调制 解 调 
器 上 通过 以 太 网 或 通过 PPP 或 SLIP 协议 来 运行 IP。 

内 核 V 1.0 还 包括 新 的 、 更 为 强大 的 文件 系统 ， 不 再 受 限 于 原先 的 Minix 文件 系统 ; 它 
支持 一 系列 SCSI 控制 器 ， 用 于 访问 高 性 能 磁盘 。 开 发 人 员 扩 展 了 虚拟 内 存 子 系统 ， 以 支持 
交换 文件 的 分 页 和 任意 文件 的 内 存 映 射 (但 是 1.0 版 只 实现 了 只 读 内 存 映射 )。 

这 个 版 本 包含 了 一 系列 额外 的 硬件 支持 。 虽 然 仍 然 限 于 Intel PC 平台 ,但 是 硬件 支持 已 
经 发 展 到 包括 软盘 和 CD-ROM 设备 、 声 卡 、 各 种 鼠标 和 国际 键盘 等 。 对 于 没有 80387 数学 
协 处理 器 的 80386 用 户 ， 内 核 还 提供 了 浮 点 仿真 。 还 实现 了 System V UNIX 风格 的 进程 间 
通信 (InterProcess Communication，IPC)， 如 共享 内 存 、 信 号 量 和 消息 队列 等 。 

这 时 ， 内 核 1.1 的 开发 也 开始 了 ; 但 是 ， 针 对 1.0 的 无 数 错误 补丁 (bug-fix) 也 随后 发 
布 了 。 这 种 模式 成 为 Linux 内 核 的 标准 编号 约定 。 具 有 奇数 的 小 版 本 号 的 内 核 ， 如 1.1 或 
2.5， 为 开发 内 核 ( development kernel); 具有 偶数 的 小 版 本 号 的 内 核 ， 为 稳定 的 生产 内 核 
( production kernel)。 稳 定 内 核 的 更 新 只 是 作为 修订 版 本 ， 而 开发 内 核 可 能 包括 更 新 的 和 相 
对 而 言 还 未 测试 的 功能 。 正 如 我 们 将 会 看 到 的 ， 这 种 模式 一 直 如 此 ， 直 到 版 本 3。 

1995 年 3 月， 内 核 1.2 发 布 了 。 这 个 版 本 与 版 本 1.0 相 比 没有 提供 同样 的 功能 改进 ， 但 
是 它 确实 支持 了 更 多 种 类 的 硬件 ， 包 括 新 的 PCI 硬件 总 线 架 构 。 开 发 人 员 增 加 了 另外 一 个 
PC 特定 功能 ， 即 80386 CPU 的 虚拟 8086 模式 的 支持 ， 以 允许 模拟 PC 计算 机 的 DOS 操作 
系统 。 他 们 还 增加 了 IP 实现 ， 以 支持 记 账 和 防火 墙 还 提供 了 对 动态 的 可 加 载 和 可 和 镍 载 的 
内 核 模块 的 简单 支持 。 

内 核 1.2 是 最 后 的 仅 适 用 于 PC 的 Linux 内 核 。Linux 1.2 的 源 代码 发 布 包 括 部 分 支持 
SPARC, Alpha 和 MIPS 的 CPU ; 但 是 这 些 其 他 架构 的 完全 集成 并 未 开始 ， 直 到 稳定 的 内 核 
1.2 发 布 。 

Linux 1.2 发 布 关注 更 广泛 的 硬件 支持 和 更 完整 的 现 有 功能 实现 。 同 时 ,很 多 新 的 功能 
也 在 开发 ; 但 是 整合 新 代码 到 主 内 核 源 代码 被 推迟 了 ， 直 到 稳定 的 内 核 1.2 发 布 以 后 。 结 果 ， 
1.3 开发 系列 增加 了 大 量 新 功能 到 内 核 。 

这 项 工作 最 终于 1996 年 6 月 按 Linux 2.0 版 来 发 布 。 这 个 版 本 有 了 一 个 新 的 主 版 本 号 ， 
这 是 因为 两 大 主要 新 的 功能 : 支持 多 种 体系 结构 ,包括 一 个 完全 的 64 位 Alpha 移植 ;支持 
对 称 多 处 理 ( Symmetric MultiProcessing，SMP )。 另 外 ， 内 存 管理 代码 已 经 大 大 改进 ， 为 文 
件 系统 提供 了 独立 于 块 设备 缓存 的 统一 缓存 。 这 种 改进 的 结果 是 ， 内 核 大 大 改进 了 文件 系统 
和 虚拟 内 存 的 性 能 。 第 一 次 ， 文件 系 统 缓存 扩展 到 网 络 文件 系统 ， 可 写 内 存 映 射 区 域 也 得 到 
支持 。 其 他 重大 改进 包括 : 内 核 内 部 线程 的 增加 、 揭 示 可 加 载 模块 之 间 依赖 关系 的 机 制 、 按 
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需 自动 加 载 模块 的 支持 、 文 件 系统 配额 以 及 POSIX 兼容 的 实时 进程 调度 类 别 等 。 


1999 年 ，Linux 2.2 发 布 了 ， 这 是 改进 版 。 添 加 了 UltraSPARC 系统 的 移植 。 增 强 了 
网 络 功能 ， 如 更 灵活 的 防火 墙 、 改 进 的 路 由 与 流量 管理 、 支 持 TCP 大 窗口 和 可 选择 确认 
等 。 现 在 可 以 读 取 Acorn, Apple 和 NT 磁盘 ， 而 且 通 过 新 的 内 核 模 式 NFS 守护 进程 增强 了 
NFS。 与 以 前 相 比 可 以 在 更 细 粒 度 级 别 上 ， 加 锁 信 号 处 理 、 中 断 和 一 些 IO， 进 而 提高 对 称 
多 处 理 器 (SMP) 的 性 能 。 

内 核 2.4 和 2.6 版 本 的 改进 包括 : SMP 系统 的 改进 支持 、 日 志文 件 系统 以 及 内 存 管理 和 
H O 系统 的 改进 。 版 本 2.6 修改 了 进程 调度 器 ， 以 提供 了 一 个 高 效 的 0(1) 调度 算法 。 此 
外 ， 内 核 2.6 是 抢占 式 的 ， 人 允许 进程 甚至 在 内 核 模式 下 运行 也 被 抢占 。 

2011 年 7 月 ，Linux 内 核 版 本 3.0 发 布 了 。 以 2 到 3 的 版 本 主 号 的 跳跃 来 纪念 Linux 
二 十 周年 。 新 的 功能 包括 : 改进 的 虚拟 化 支持 、 新 的 页 面 回 写 工具 、 改 进 的 内 存 管 理 系统 、 
另 一 个 新 的 进程 调度 器 即 完 全 公平 调度 程序 ( Completely Fair Scheduler，CFS)。 本 章 主要 
关注 这 个 版 本 的 内 核 。 


16.1.2 Linux 系统 


如 前 所 述 ，Linux 内 核 构 成 Linux 项 目的 核心 ， 但 是 其 他 组 件 组 成 一 个 完整 的 Linux 操 
作 系 统 。Linux 内 核 是 针对 Linux 项 目的 完全 从 头 编写 的 代码 组 件 ， 但 是 组 成 Linux 系统 的 
大 部 分 配套 软件 不 是 专用 于 Linux ， 而 是 常见 于 一 些 类 似 UNIX 的 操作 系统 。 特 别 是 ，Linux 
采用 : (EA Berkeley 的 BSD 操作 系统 而 开发 的 许多 工具 、MIT 的 X Window 系统 以 及 自由 
软件 基金 会 的 GNU 项 目 。 

工具 的 这 种 共享 是 双向 的 。Linux 的 主要 系统 库 源 于 GNU 项 目 ， 但 是 Linux 社区 通过 处 
理 遗 漏 、 低 效 、 错 误 等 大 大 改进 了 这 些 库 。 其 他 组 件 ， 如 GNU C 编译 器 ( GNU C compiler, 
gcc)， 已 经 具有 足够 高 的 质量 ， 可 以 直接 用 于 Linux。Linux 的 网 络 管理 工具 源 自 4.3 BSD 
的 开发 代码 ， 但 是 更 多 最 近 的 BSD 衍生 产品 ， 如 FreeBSD ， 反 过 来 借用 Linux 的 代码 。 这 
种 共享 的 例子 包括 : Intel 浮 点 仿真 数学 库 和 PC 声卡 设备 驱动 程序 。 

整个 Linux 系统 是 由 通过 Internet 协作 的 开发 人 员 的 松散 网 络 来 维护 的 ， 其 中 少量 的 
个 人 或 组 负责 维护 特定 组 件 的 完整 性 。 少 数 的 公共 Internet FTP ( File-Transfer-Protocol, X 
件 传输 协议 ) 站 点 作为 这 些 组 件 的 事实 上 的 标准 存储 。 文 件 系统 层次 结构 标准 (File System 
Hierarchy Standard) 文档 也 由 Linux 社区 维护 ， 这 是 确保 各 种 系统 组 件 兼容 性 的 手段 。 这 个 
标准 规定 了 标准 的 Linux 文件 系统 的 总 体 布局 ， 它 确定 配置 文件 、 库 、 系 统 二 进 制 和 运行 时 
数据 文件 应 该 保存 在 哪个 目录 下 。 


16.1.3 Linux 发 行 


理论 上 ， 任 何人 都 可 以 从 FTP 网 站 上 获取 必要 系统 组 件 的 最 新 版 本 ， 编 译 它们 ， 安 装 
Linux 系统 。 在 Linux 早期 ， 这 正 是 Linux 用 户 必须 做 的 。 然 而 ， 随 着 Linux 日 趋 成 熟 ， 许 
多 个 人 和 团体 通过 提供 标准 的 、 预 编译 的 、 易 于 安装 的 软件 包 ， 使 得 安装 任务 更 加 方便 。 

这 些 组 合 或 者 发 行 包 含 的 远 远 不 止 是 Linux 基本 系统 。 它 们 通常 包括 额外 的 系统 安装 和 
管理 实用 程序 ， 以 及 预 编译 的 和 准备 安装 的 许多 常用 UNIX 工具 ， 如 新 闻 服 务 器 、 网 络 浏览 
器 、 文 本 处 理 和 编辑 工具 ， 甚 至 游戏 等 。 

早期 发 行 的 软件 包 的 管理 ， 只 是 简单 提供 方法 ,来 解压 缩 所 有 文件 到 适当 位 置 。 然 而 ， 
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现代 发 行 的 重要 贡献 之 一 是 先进 的 软件 包 管 理 。 今 天 的 Linux 发 行 包 括 跟 踪 软 件 包 的 数据 
库 ， 以 便 轻松 安装 、 更 新 、 删 除 程序 包 。 

SLS 发 行 ， 可 以 追溯 到 Linux 早期 ， 可 以 作为 完整 发 行 的 Linux 包 的 首 个 集合 。 虽 然 它 
可 以 作为 单个 实体 来 安装 ，SLS 缺少 现在 Linux 发 行 的 常 有 的 程序 包 管 理工 具 。Slackware 
发 行 在 整体 质量 上 做 出 了 很 大 提高 ， 尽 管 它 的 软件 包 管 理 较 差 。 事实 上 ， 它 仍然 是 Linux 社 
区 的 最 为 广泛 的 安装 发 行 之 一 。 

自从 Slackware 发 布 以 来 ， 许 多 商业 和 非 商业 Linux 发 行 也 已 问世 。Red Hat 和 Debian 
是 非常 流行 的 发 行 ; 前 者 来 自 商 业 Linux 支持 公司 ， 后 者 来 自 免费 软件 Linux 社区 。 其 他 商业 
支持 的 Linux 发 行 包括 Canonical 和 SuSE 的 发 行 。Linux 还 有 太 多 的 流通 的 发 行 ， 在 此 无 法 
一 一 列 出 。 然 而 ， 各 种 发 行 并 不 阻止 Linux 发 行 的 相互 兼容 。RPM 包 文 件 格式 被 大 多 数 发 行 所 
使 用 或 至 少 所 支持 ; 采用 这 种 格式 的 商用 软件 可 以 被 支持 RPM 的 任何 发 行 来 安装 和 运行 。 


16.1.4 Linux 许可 


Linux 内 核 分 布 遵循 2.0 版 的 GNU GPL (General Public License， 通 用 公共 许可 )， 它 的 
条 款 由 自由 软件 基金 会 (Free Software Foundation) 制定 。Linux 不 是 公共 流通 软件 。 公 共 流 
通 (public domain) 意味 着 作者 已 经 放弃 软件 版 权 ， 但 是 Linux 代码 版 权 仍然 由 各 个 代码 作 
者 拥有 。 然 而 ，Linux 是 个 自由 软件 ， 也 就 是 说 人 们 可 以 随意 复制 它 、 修 改 它 和 使 用 它 ， 并 
且 可 以 毫 无 约束 地 赠送 (或 出 售 ) 他 们 自己 的 副本 。 

Linux 许可 条 款 的 主要 含义 是 ， 使 用 Linux 或 者 创建 Linux 派生 (合法 使 用 ) 的 任何 人 
员 ， 不 能 发 布 派 生产 品 而 不 包括 源 代码 。 遵 循 GPL 的 发 布 软件 不 得 仅 以 二 进 制 形式 来 发 布 。 
如 果 你 发 布 的 软件 包括 任何 GPL 组 件 ， 则 根据 GPL 在 发 行 二 进 制 的 产品 时 ， 你 也 必须 提供 
源 代 码 。( 这 个 限制 并 不 禁止 开发 或 者 销售 二 进 制 软件 发 行 ， 只 要 获得 二 进 制 产品 的 任何 人 
员 都 有 机 会 通过 合理 费用 来 获得 源 代 码 。) 


16.2 设计 原则 


在 整体 设计 上 ，Linux 类 似 于 其 他 传统 的 、 非 微 内 核 的 UNIX 实现 。 它 是 个 多 用 户 的 、 
抢占 式 的 多 任务 系统 ， 并 拥有 全 套 的 UNIX HATA. Linux 文件 系统 遵循 传统 UNIX 语义 ， 
而 且 标 准 UNIX 网 络 模型 也 已 完全 实现 。Linux 设计 的 内 部 细节 ， 深 受 这 个 操作 系统 发 展 历 
史 的 影响 。 

虽然 Linux 可 以 运行 在 多 种 平台 上 ， 但 是 它 最 初 针 对 PC 架构 开发 。 大 量 的 早期 开发 是 
由 个 人 爱好 者 来 实现 的 ， 而 不 是 由 资金 充足 的 研发 团队 来 实现 的 ， 所 以 从 一 开始 Linux 试图 
通过 有 限 资源 来 开发 尽 可 能 多 的 功能 。 如 今 ，Linux 可 以 欢快 地 运行 在 具有 数 兆 字 节 的 主 内 
存 和 数 TB 的 磁盘 空间 ， 但 是 它 仍然 能 够 有 效 地 运行 在 不 到 16MB W RAM 中 。 

随 着 PC 的 日 益 强 大 ， 随 着 内 存 和 硬盘 的 日 趋 便宜 ， 最 初 的 、 极 简 的 Linux 内 核 也 日 益 
实现 更 多 UNIX 功能 。 速 度 和 效率 仍然 是 很 重要 的 设计 目标 ， 但 是 近期 和 目前 的 Linux 工作 
已 经 集中 到 第 三 个 主要 设计 目标 : 标准 化 。 目 前 可 用 的 UNIX 实现 多 样 性 的 代价 之 一 是 ， 为 
一 个 平台 编写 的 源 代 码 未 必 能 在 另 一 个 平台 上 正确 编译 或 运行 。 即 使 同样 的 系统 调用 出 现在 
两 个 不 同 的 UNIX 系统 上 ， 它 们 的 行为 未 必 完 全 一 样 。POSIX 标准 包含 一 套 规范 ， 以 说 明 
操作 系统 行为 的 不 同方 面 。POSIX 文档 有 的 是 针对 操作 系统 的 通用 功能 ， 有 的 是 针对 扩展 ， 
如 进程 线程 和 实时 运行 。Linux 设计 符合 相关 POSIX 文档 ， 而 且 至 少 两 种 Linux 发 行 已 经 取 
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得 官方 的 POSIX 认证 。 

因为 Linux 为 程序 员 和 用 户 提 供 了 标准 接口 ， 所 以 对 于 任何 熟悉 UNIX 的 人 员 ，Linux 
并 不 陌生 。 这 里 ， 我 们 并 不 细 说 这 些 接口 。BSD 的 程序 员 接 口 (A.3 节 ) 和 用 户 接 口 (A.4 节 ) 
同样 适用 Linux。 然 而 ， 在 默认 情况 下 Linux 编程 接口 遵循 SVR4 UNIX 语义 而 非 BSD 行 
为 。 当 两 种 行为 明显 不 同时 ， 可 以 采用 一 组 单独 的 库 来 实现 BSD 语义 。 

UNIX 世界 还 有 许多 其 他 标准 ; 但 是 Linux 对 于 这 些 标准 的 完全 认证 有 时 很 慢 ， 因 为 认 
证 通常 是 收费 的 ， 而 且 认 证 操作 系统 符合 大 多 数 标准 的 相关 费用 是 很 大 的 。 然 而 ， 支 持 大 
量 应 用 对 于 任何 操作 系统 都 是 重要 的 ， 所 以 这 些 标 准 的 实现 是 Linux 开发 的 重要 目标 ， 即 使 
它 的 实现 没有 正式 认证 。 除 了 基本 的 POSIX 标准 ，Linux 目前 支持 POSIX 的 线程 扩展 ， 即 
Pthreads， 以 及 用 于 实时 进程 控制 的 POSIX 扩展 子 集 。 


Linux 系统 的 组 件 


Linux 系统 包括 三 类 主要 代码 ， 符 合 大 多 数 的 传统 的 UNIX 实现 : 

© 内 核 。 内 核 负 责 维护 操作 系统 的 所 有 重要 抽象 ,包括 虚拟 内 存 和 进程 等 。 

e 系统 库 。 系 统 库 定义 了 一 个 标准 的 函数 集合 ， 应 用 程序 可 以 通过 这 些 函 数 与 内 核 交 
互 。 这 些 函 数 实 现 了 操作 系统 的 很 多 功能 ， 而 不 需要 内 核 代码 的 完全 特权 。 最 重要 
的 系统 库 是 C HE (C library)， 称 为 1ibc。 除 了 提供 标准 的 C 库 ，libc 实现 用 户 模 
式 的 Linux 系统 调用 接口 ， 以 及 其 他 关键 系统 接口 。 

e 系统 工具 。 系 统 工具 程序 执行 单独 的 、 专 业 的 管理 任务 。 有 些 系统 工具 只 被 调用 
一 次 ， 以 便 初 始 化 并 配置 系统 的 某 些 方面 。 其 他 ， 在 UNIX 术语 中 称 为 守护 进程 
(daemon)， 永 久 地 运行 ; 处 理 的 任务 包括 响应 网 络 连接 请 求 、 接 受 来 自 终端 的 登录 请 
求 和 更 新 日 志文 件 等 。 

图 16-1 说 明了 构成 一 个 完整 Linux 系统 的 各 种 组 件 。 这 里 ， 最 重要 的 区 别 在 于 内 核 和 
其 他 。 所 有 内 核 代 码 都 在 处 理 器 的 特权 模式 下 运行 ， 并 能 完全 访问 计算 机 的 所 有 物理 资源 。 
Linux 称 这 种 特权 模式 为 内 核 模 式 (kernel mode)。 在 Linux 下 ， 内 核 没 有 用 户 代 码 。 任 何 操 
作 系 统 支持 的 代码 如 无 需 运 行 在 内 核 模 式 下 ， 则 放 在 系统 库 中 ， 并 按 用 户 模式 (user mode) 
来 运行 。 与 内 核 模 式 不 同 ， 用 户 模式 只 能 访问 系统 资源 的 受 控 子 集 。 






图 16-1 Linux 系统 的 组 件 


虽然 多 个 现代 操作 系统 在 内 核 内 部 里 采用 了 消息 传递 架构 ， 但 是 Linux 保留 UNIX 的 历 
史 模 型 : 内核 被 创建 成 单一 的 、 单 片 的 二 进 制 形式 。 这 个 主要 原因 是 性 能 。 因 为 所 有 内 核 代 
码 和 数据 结构 都 保存 在 单个 地 址 空间 中 ， 当 进程 调用 操作 系统 函数 时 或 当 硬 件 中 断 被 交付 时 ， 
没有 必要 进行 上 下 文 转换 。 此 外 ， 在 各 个 子 系统 之 间 传 递 数据 和 发 出 请 求 时 ， 内 核 采 用 的 是 
相对 便宜 的 C 函数 ， 而 不 是 更 为 复杂 的 进程 间 通 信 (IPC)。 这 个 单一 地 址 空间 不 仪 包含 核心 
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调度 和 虚拟 内 存 代 码 ， 而 且 包含 所 有 内 核 代 码 ， 如 设备 驱动 程序 、 文 件 系 统 和 网 络 代码 等 。 

尽管 所 有 内 核 组 件 共享 于 同一 个 熔炉 ， 但 是 仍然 有 模块 化 的 空间 。 如 同 用 户 应 用 程序 可 
以 加 载 共 享 库 以 便 引 入 所 需 的 代码 片段 ，Linux 内 核 也 可 以 在 运行 时 动态 加 载 (或 印 载 ) 模 
块 。 内 核 不 必 预 先知 道 哪些 模块 可 以 加 载 ， 因 为 它们 是 真正 独立 的 可 加 载 组 件 。 

Linux 内 核 构成 了 Linux 操作 系统 的 核心 。 它 提供 运行 进程 必需 的 所 有 功能 ， 而 且 它 提 
供 系 统 服 务 ， 以 便 给 予 硬件 资源 的 仲裁 和 保护 的 访问 。 内 核实 现 操 作 系 统 要 求 的 所 有 功能 ， 
然而 ，Linux 内 核 提供 的 操作 系统 本 身 不 是 完整 的 UNIX 系统 。 它 缺少 UNIX 的 很 多 功能 和 
行为 ， 它 提供 的 特征 不 一 定 是 UNIX 应 用 程序 期 望 它们 出 现 的 格式 。 应 用 程序 可 用 的 操作 系 
统 接口 并 不 是 由 内 核 来 直接 维护 的 。 相 反 ， 应 用 程序 调用 系统 库 ， 而 系统 库 反 过 来 根据 需要 
调用 操作 系统 服务 。 

系统 库 提供 许多 类 型 的 功能 。 在 最 简单 的 级 别 ， 它 们 允许 应 用 程序 对 内 核 进行 系统 调 
用 。 进 行 系统 调用 涉及 从 非特 权 用 户 模式 到 特权 内 核 模式 的 控制 转移 ; 这 种 转移 的 细节 因 架 
构 而 异 。 系 统 库 收集 系统 调用 的 参数 ， 如 果 必 要 ， 按 特殊 形式 编排 这 些 参 数 来 进行 系统 调用 。 

系统 库 也 可 能 提供 基本 系统 调用 的 更 为 复杂 的 形式 。 例 如 ，C 语言 的 缓冲 文件 处 理 函 数 
都 实现 在 系统 库 中 ， 提 供 了 比 基 本 内 核 系统 调用 更 为 高 级 的 文件 VO 控制。 这 些 系统 库 也 提 
供 了 并 不 对 应 于 系统 调用 的 程序 ， 例 如 排序 算法 、 数 学 函数 和 字符 串 处 理 程 序 。 支 持 UNIX 
和 POSIX 应 用 程序 运行 的 所 有 必要 函数 ， 都 在 系统 库 中 实现 。 

Linux 系统 包括 各 种 各 样 的 用 户 模 式 的 程序 : 系统 实用 程序 和 用 户 实用 程序 。 系 统 实用 程序 
包括 用 于 初始 化 和 管理 系统 的 所 有 必要 程序 ， 如 配置 网 络 接口 、 增 加 或 删除 系统 的 用 户 。 用 户 
实用 程序 也 是 系统 基本 运行 所 必需 的 ， 但 是 不 要 求 提 升 权 限 来 运行 。 它 们 包括 简单 的 文件 管理 
实用 程序 ， 如 复制 文件 、 创 建 目 录 和 编辑 文本 文件 。 最 重要 的 一 个 用 户 实用 程序 是 外 壳 (shell), 
即 标准 UNIX 系统 的 命令 行 界面 。Linux 支持 很 多 shell， 最 常见 的 是 bash (bourne-again shell)。 


16.3 ”内 核 模 块 


Linux 内 核能 够 按 需 加 载 和 印 载 任 何 内 核 代 码 片段 。 这 些 可 加 载 的 内 核 模块 按 特 权 内 核 
模式 来 运行 ， 因 此 这 些 内 核 模块 能 够 完全 访问 它 所 运行 的 计算 机 硬件 。 在 理论 上 ， 对 于 内 核 
模块 权限 ， 没 有 任何 限制 。 内 核 模 块 可 以 实现 很 多 ， 如 设备 驱动 程序 、 文 件 系统 或 网 络 协议 。 

由 于 多 种 原因 ， 内 核 模 块 非常 方便 。Linux 源 代码 是 免费 的 ， 所 以 想 要 编写 内 核 代码 的 
任何 人 员 能 够 编译 已 修改 的 内 核 ， 再 重新 启动 进入 新 的 内 核 功能 。 然 而 ， 当 你 开发 新 的 驱动 
程序 时 ， 重 新 编译 、 重 新 链接 、 重 新 加 载 整个 内 核 是 个 繁琐 的 过 程 。 如 果 你 使 用 内 核 模块 ， 
则 你 就 不 必 创建 新 的 内 核 ， 来 测试 新 的 驱动 程序 ， 因 为 驱动 程序 可 以 被 编译 并 被 加 载 到 正在 
运行 的 内 核 。 当 然 , 一 旦 新 的 驱动 程序 被 编写 出 来 ， 它 可 以 作为 一 个 模块 来 发 布 ， 这 样 其 他 
用 户 无 需 重 建 内 核 也 能 从 中 受益 。 

后 面 这 点 具有 另 一 个 含义 。 因 为 Linux 内 核 遵 循 GPL 许可 ， 当 添加 了 具有 所 有 权 的 组 
件 时 ， 它 就 不 能 被 发 布 ， 除 非 那些 新 的 组 件 也 按 GPL 来 发 布 ， 而 且 它 们 的 源 代码 是 按 需 提 
供 的 。 内 核 模块 接口 允许 第 三 方 ， 根 据 自己 的 条 款 来 编写 和 发 布 无 需 遵 循 GPL 的 设备 驱动 
或 文件 系统 。 

内 核 模 块 允许 使 用 最 小 标准 内 核 来 设置 Linux 系统 ， 而 无 需 任何 额外 的 内 置 的 设备 驱动 
程序 。 任 何 用 户 需要 的 设备 驱动 程序 ， 或 者 在 启动 时 由 系统 明确 加 载 ， 或 者 根据 需要 由 系统 
自动 加 载 并 在 不 用 时 印 载 。 例 如 ， 和 鼠标 驱动 程序 可 以 在 USB 鼠标 插入 系统 时 加 载 ， 而 在 鼠 
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brik FT HR. 

Linux 的 内 核 模块 支持 具有 四 个 组 件 : 

e 模块 管理 系统 (module-management system) 允许 模块 加 载 到 内 存 ， 并 与 其 他 内 核 进 
行 通信 。 

e Mth mses HAE (module loader and unloader) 为 用 户 模 式 实 用 程序 ， 与 模块 管 
理 系 统一 起 加 载 模块 到 内 存 中 。 

e 驱动 程序 注册 系统 (driver registration system) 允许 模块 告诉 其 余 内 核 : 新 的 驱动 程 
序 已 经 可 用 。 

e 冲突 解决 机 制 (conflict-resolution mechanism) 允许 不 同 的 设备 驱动 预 留 硬件 资源 ， 
并 防护 这 些 资源 以 免除 另 一 驱动 程序 的 无 意 使 用 。 


16.3.1 模块 管理 


703 加 载 模块 不 仅 只 是 加 载 二 进 制 文件 内 容 到 内 核 内 存 。 系 统 还 应 确保 : 模块 对 内 核 符号 或 
入 口 点 的 任何 引用 被 更 新 为 指向 内 核 地 址 空间 的 正确 位 置 。Linux 引用 更 新 的 处 理 将 模块 加 
载 作 业 分 为 两 个 部 分 : 内 核 内 存 中 的 模块 代码 段 的 管理 和 人 允许 模块 引用 的 符号 处 理 。 

Linux 在 内 核 中 维护 一 个 内 部 符号 表 。 这 个 符号 表 并 不 包含 内 核定 义 的 编译 生成 的 完整 
符号 集合 ; 相反 ,符号 必须 明确 导出 。 导 出 符号 的 集合 构成 了 明确 定义 的 接口 ， 以 便 模块 与 
内 核 交互 。 

虽然 从 内 核 函数 中 导出 符号 要 求 程序 员 明 确 请 求 , 但 是 引入 这 些 符号 到 模块 不 需要 特 
别 的 工作 。 模 块 开 发 人 员 只 需 使 用 C 语言 的 标准 外 部 链接 。 模 块 引用 的 但 未 声明 的 任何 外 
部 符号 ， 在 编译 器 生成 的 最 终 模块 二 进 制 中 ， 简 单 地 标记 为 未 解析 的 。 当 模块 被 加 载 到 内 核 
时 ， 一 个 系统 实用 程序 首先 扫描 模块 以 获得 这 些 未 解析 的 引用 。 所 有 仍 需 解析 的 符号 都 在 内 
核 符号 表 中 查找 ， 而 且 当 前 运行 内 核 的 这 些 符 号 的 正确 地 址 用 于 替换 模块 中 的 。 只 有 这 样 ， 
这 个 模块 才 被 传 到 内 核 ， 以 便 加 载 。 如 果 系 统 实用 程序 在 查询 内 核 符号 表 时 无 法 解析 模块 中 
的 所 有 引用 ， 则 这 个 模块 就 会 被 拒绝 。 

模块 加 载 分 成 两 个 阶段 执行 。 首 先 ， 模 块 加 载 器 实用 程序 要 求 内 核 为 模块 预 留 一 个 连续 
区 域 的 虚拟 内 核 内 存 。 内 核 返 回 分 配 内 存 的 地 址 ， 而 加 载 器 实用 程序 可 以 采用 这 个 地 址 ， 以 
重新 定位 模块 的 机 器 代码 到 正确 的 加 载 地 址 。 随 后 的 系统 调用 传递 这 个 模块 和 新 模块 想 要 导 
出 的 任何 符号 表 到 内 核 。 现 在 ， 模 块 本 身 被 逐 字 地 复制 到 先前 的 分 配 空间 ， 内 核 符号 表 根 据 
新 的 导出 符号 来 更 新 ， 以 便 可 以 用 于 尚未 加 载 的 其 他 模块 。 

最 后 的 模块 管理 组 件 是 模块 请 求 程序 。 内 核定 义 了 一 个 通信 接口 ， 以 便 能 与 模块 管理 程 
序 连接 。 在 这 个 连接 建立 后 ， 每 当 进程 请 求 设 备 驱 动 程序 、 文 件 系 统 或 现在 尚未 加 载 的 网 络 
服务 时 ， 内 核 将 会 通知 管理 程序 ， 并 会 让 它 加 载 所 需 的 那个 服务 。 一 旦 模块 被 加 载 ， 原 来 的 
服务 请 求 也 就 完成 了 。 管 理 进程 定期 查询 内 核 ， 以 确定 动态 加 载 的 模块 是 否 仍 在 使 用 ; 当 模 
块 不 再 被 需要 时 就 被 印 载 。 


16.3.2 ”驱动 程序 注册 


一 旦 模块 加 载 之 后 ， 它 只 不 过 是 孤立 的 内 存 区 域 ， 直 到 它 让 内 核 的 其 他 部 分 知道 它 能 够 
提供 什么 新 的 功能 。 内 核 维护 所 有 已 知 驱 动 程序 的 动态 表 ， 并 提供 一 组 程序 以 便 允 许 从 这 些 
[04] 表 中 随时 添加 或 删除 驱动 程序 。 内 核 确保 : 在 加 载 模块 时 ， 它 调用 模块 的 启动 程序 ; ERR 
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模块 之 前 ， 它 调用 模块 的 清除 程序 。 这 些 程序 负责 模块 注册 功能 。 
模块 注册 的 功能 类 型 可 以 很 多 ; 而 不 只 是 一 种 。 例 如 ， 设 备 驱动 程序 可 能 需要 注册 两 个 
单独 的 设备 访问 机 制 。 注 册 表 包括 很 多 内 容 ， 如 : 
© 设备 驱动 程序 。 这 些 驱动 程序 包括 字符 设备 (如 打印 机 、 终 端 和 鼠标 )、 块 设备 ( 包 
括 所 有 磁盘 驱动 器 ) 和 网 络 接口 设备 。 
© 文件 系统 。 任 何 文件 系统 实现 Linux 虚拟 文件 系统 的 调用 程序 。 它 可 能 实现 磁盘 文件 
的 存储 格式 ; 但 它 也 可 能 是 网 络 文件 系统 (如 NFS)， 或 者 内 容 按 需 生 成 的 虚拟 文件 
系统 ， 如 Linux 的 文件 系统 /proc。 
© 网 络 协议 。 模 块 可 以 实现 整个 网 络 协议 (如 TCP)， 或 者 只 是 网 络 防火 墙 的 包 过 滤 的 
一 套 新 规则 。 
。 二 进 制 格式 。 这 个 格式 指定 一 种 方法 ， 以 识别 、 加 载 和 执行 新 的 可 执行 文件 类 型 。 
另外 ， 模 块 可 以 在 表 sysctl 和 /proc 中 注册 一 组 新 的 条 目 ， 以 便 允 许 动态 配置 这 个 模块 
( 16.7.4 节 )。 


16.3.3 ”冲突 解决 


商业 UNIX 实现 通常 销售 ， 以 运行 在 供应 商 自 己 的 硬件 上 。 单 一 供应 商 解 决 方案 的 一 个 
优点 是 ， 软 件 供应 商 非常 清楚 ， 可 能 具有 什么 硬件 配置 。 然 而 ，PC 硬件 有 数量 巨大 的 不 同 
配置 ,设备 (如 网 卡 和 视频 适配器 ) 的 可 能 驱动 程序 的 数量 众多 。 当 支持 模块 化 设备 驱动 程 
序 时 ， 硬 件 配置 的 管理 问题 更 加 严重 ， 因 为 当前 活动 的 设备 集 是 动态 可 变 的 。 

Linux 提供 了 集中 冲突 解决 机 制 ， 以 帮助 仲裁 访问 某 些 硬件 资源 。 它 的 目标 如 下 : 

o 防止 模块 冲突 访问 硬件 资源 。 

© 防止 自动 探 针 (autoprobe) (自动 检测 设备 配置 的 设备 驱动 程序 探 针 ) 干扰 现 有 设备 驱 

动 程序 。 
© 解决 多 个 驱动 程序 试图 访问 同一 硬件 的 冲突 问题 ， 例 如 ， 并 行 打印 机 驱动 程序 和 
PLIP (Parallel Line IP, JFT IP) 网 络 驱动 程序 试图 访问 同一 并 行 端 口 。 

为 此 ， 内 核 维 护 已 分 配 硬件 的 资源 列表 。PC 包括 数量 有 限 的 可 用 IO 端口 (硬件 VO 地 
址 空间 的 地 址 )、 信 和 号 中 断 线 和 DMA 通道 。 当 任何 设备 驱动 程序 想 要 访问 这 类 资源 时 ， 它 
应 首先 通过 内 核 数 据 库 来 预 留 资源 。 这 个 要 求 进而 允许 系统 管理 员 精 确 确定 ， 在 任 一 时 间 点 
哪个 资源 分 配给 了 哪个 驱动 程序 。 

模块 预计 使 用 这 种 机 制 ， 来 提前 预 留任 何 预期 使 用 的 硬件 资源 。 如 果 由 于 资源 已 不 在 或 
已 在 使 用 ， 预 留 就 被 拒绝 ， 则 模块 决定 会 如 何 继续 。 它 在 尝试 初始 化 时 可 能 失败 : 如 果 不 能 
继续 则 要 求 印 载 ， 如 果 可 以 使 用 替代 硬件 资源 ， 则 可 以 继续 。 


16.4 进程 管理 


进程 是 所 有 用 户 请 求 活动 在 操作 系统 内 被 服务 的 基本 上 下 文 。 为 了 与 其 他 UNIX ABCA 
容 ，Linux 必须 使 用 与 其 他 版 本 的 类 似 UNIX 的 进程 模型 。 然 而 ，Linux 在 多 个 关键 地 方 有 
HF UNIX。 本 节 回 顾 传统 UNIX 进程 模型 (A.3.2 节 )， 并 介绍 Linux 线程 模型 。 


16.4.1 fork()/exec() 进程 模型 
UNIX 进程 管理 的 基本 原理 是 ， 将 通常 组 合 一 起 的 两 个 操作 分 成 两 个 步骤 : 创建 新 的 
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进程 和 运行 新 的 程序 。 新 进程 的 创建 采用 系统 调用 fork() ， 新 程序 的 运行 采用 系统 调用 
exec()。 这 是 两 个 明显 不 同 的 函数 。 我 们 可 以 通过 fork() 创建 新 的 进程 而 没有 运行 新 的 
程序 ， 新 的 子 进 程 只 是 从 完全 相同 的 点 ， 继 续 执行 完全 相同 的 程序 (与 第 一 ( 父 ) 进程 运 
行 的 一 样 )。 同 样 ， 运 行 新 的 程序 并 不 要 求 新 的 进程 首先 要 被 创建 。 任 何 进程 可 以 随时 调用 
exec()。 这 样 ， 新 的 二 进 制 对 象 被 加 载 到 进程 的 地 址 空间 ， 并 且 新 的 可 执行 文件 按 现 有 进 
程 的 上 下 文 来 开始 执行 。 

这 种 模型 的 优点 是 非常 简单 。 在 运行 程序 的 系统 调用 中 ,没有 必要 指定 新 程序 的 每 个 环 
境 细 节 。 新 程序 简单 地 运行 于 现 有 环境 。 如 果 父 进程 希望 修改 新 程序 运行 的 环境 ， 则 它 可 以 
首先 fork ; 然后 在 子 进 程 继续 运行 原来 的 可 执行 文件 时 ， 通 过 系统 调用 修改 这 个 子 进程 ;最 
后 执行 新 的 程序 。 

对 于 UNIX， 进 程 包 含 了 操作 系统 必须 维护 的 所 有 信息 ， 以 便 跟踪 单个 程序 的 单个 执行 
的 上 下 文 。 对 于 Linux， 我 们 可 以 将 这 个 上 下 文 分 成 几 个 具体 部 分 。 大 体 上 ， 进 程 属性 分 为 
三 组 : 进程 标识 、 环 境 和 上 下 文 。 
16.4.1.1 进程 特征 

进程 标识 主要 包括 以 下 内 容 : 

e 进程 ID (PID)。 每 个 进程 都 有 唯一 的 标识 符 。 当 应 用 程序 通过 系统 调用 来 触发 、 修 
改 或 等 待 时 ，PID 用 于 向 操作 系统 标识 本 进程 。 人 额外 标识 符 将 进程 与 进程 组 (通常 ， 
单个 用 户 命 令 分 义 的 进程 树 ) 和 登录 会 话 相 关联 。 

e 凭证 (credential)。 每 个 进程 必须 具有 关联 的 用 户 ID 和 一 个 或 多 个 用 户 组 ID ( 10.6.2 
节 讨 论 了 用 户 组 )， 以 便 确定 进程 访问 系统 资源 和 文件 的 权限 。 

e 个 性 (personality)。 进 程 个 性 并 不 出 现在 传统 的 UNIX 系统 上 ,但 是 Linux 的 每 个 进 
程 都 有 一 个 关联 的 个 性 标识 符 ， 可 以 微调 某 些 系统 调用 的 语义 。 个 性 主要 用 于 仿真 
库 ， 以 便 要 求 系统 调用 兼容 某 些 特色 UNIX, 

© 命名 空间 (namespace)。 每 个 进程 关联 文件 系统 层次 结构 的 一 个 特定 视图 ， 称 为 命 
名 空间 。 大 多 数 进 程 共 享 一 个 通用 命名 空间 ， 从 而 运行 于 共享 文件 系统 的 层次 结构 。 
然而 ， 进 程 与 其 子 进程 可 以 拥有 不 同 的 命名 空间 ， 每 个 都 有 唯一 的 文件 系统 层次 结 
构 ， 如 自己 的 根 目 录 和 安装 文件 系统 的 集合 。 

大 多 数 的 进程 标识 符 受 到 进程 本 身 的 有 限 控 制 。 如 果 进 程 想 要 启动 新 的 组 或 会 话 ， 则 进程 组 
和 会 话 标识 符 可 以 更 改 。 它 的 凭证 在 适当 安全 检查 下 可 以 更 改 。 然 而 ， 进 程 的 主 PID 是 不 
可 改变 的 ， 并 且 唯 一 标识 这 个 进程 直到 终止 。 

16.4.1.2 ”进程 环境 

进程 环境 从 父 进程 继承 而 来 ， 包 括 两 个 以 null 结束 的 向 量 : 参数 向 量 和 环境 向 量 。 参 
数 向 量 (argument vector) 只 是 简单 列 出 用 于 调用 运行 程序 的 命令 行 参数 ; 它 通 常 以 程序 本 
身 的 名 称 开 始 。 环 境 向 量 (environment vector) 是 “NAME=VALUE ”对 的 列表 ， 用 于 关联 环 
境 变量 与 它 的 文本 值 。 环 境 向 量 不 是 保存 在 内 核 内 存 中 ， 而 是 保存 在 进程 自己 的 用 户 模式 地 
址 空间 中 ， 作 为 进程 堆栈 顶部 的 第 一 项 数据 。 

在 新 进程 被 创建 时 ， 它 的 参数 和 环境 向 量 不 会 更 改 。 新 的 子 进 程 会 继承 父 进 程 的 环境 。 
但 是 ， 在 新 程序 被 调用 时 ， 会 设置 全 新 的 环境 。 在 调用 exec() 时 ， 必 须 为 新 的 程序 提供 环 
境 。 内 核 将 这 些 环境 变量 传 给 下 一 个 程序 ， 替 代 进 程 当 前 的 环境 。 否 则 ， 内 核 保持 环境 和 命 
令 行 向 量 不 变 ， 它们 的 解释 完全 留 给 用 户 模式 的 程序 库 和 应 用 程序 。 
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传递 环境 变量 从 一 个 进程 到 下 一 个 ， 而 且 子 进程 能 够 继承 这 些 变量 ， 从 而 提供 了 一 种 灵 
活 方式 ， 以 便 传递 信息 到 用 户 模式 系统 软件 的 各 个 组 件 。 许 多 重要 的 环境 变量 ， 对 于 系统 软 
件 的 相关 部 分 具有 常规 含义 。 例 如 ， 变 量 TERM 用 于 命名 连接 到 用 户 登录 会 话 的 终端 类 型 。 
许多 程序 利用 这 个 变量 ,来 确定 如 何在 用 户 显 示 屏 上 执行 操作 ， 如 移动 光标 或 滚动 文本 区 
域 。 具 有 多 语言 支持 的 程序 使 用 变量 LANG， 来 确定 采用 哪 种 语言 显示 系统 信息 。 
环境 变量 机 制 为 每 个 进程 定制 操作 系统 环境 。 用 户 可 以 彼此 独立 地 选择 他 们 自己 的 语言 
或 编辑 器 。 
16.4.1.3 ”进程 上 下 文 
通常 ， 进 程 标识 和 环境 属性 在 进程 创建 时 设置 ， 并 不 会 改变 ， 直 到 进程 退出 。 如 果 需 
要 ， 进 程 可 以 选择 改变 它 的 身份 的 某 些 方面 ， 或 者 可 以 改变 它 的 环境 。 相 对 而 言 ， 进 程 上 下 
文 是 运行 程序 的 任 一 时 刻 的 状态 ; 它 不 断 地 变化 。 进 程 上 下 文 包括 以 下 部 分 ; 
e 调度 上 下 文 。 进 程 上 下 文 的 最 重要 部 分 是 它 的 调度 上 下 文 ， 调 度 程序 需要 使 用 这 个 
信息 来 挂 起 或 重启 进程 。 这 个 信息 包括 所 有 进程 寄存 器 的 保存 副本 。 浮 点 寄存 器 是 
单独 保存 的 ， 只 有 在 需要 时 才 会 恢复 。 因 此 ， 没 有 使 用 浮 点 运算 的 进程 不 会 产生 保 
存 这 个 状态 的 开销 。 调 度 上 下 文 也 包括 了 调度 优先 级 和 等 待 传 到 进程 的 信号 等 信息 。 
调度 上 下 文 的 一 个 关键 部 分 是 进程 的 内 核 堆栈 ， 即 用 于 内 核 横 式 代码 的 单独 内 核 内 
存 区 域 。 进 程 运行 时 的 系统 调用 和 中 断 会 使 用 这 个 堆栈 。 

o 记 账 。 内 核 维护 的 记 账 信息 包括 ， 每 个 进程 正在 消耗 的 资源 和 进程 迄今 为 止 消耗 的 
总 资源 等 。 

© 文件 表 。 文 件 表 是 个 指针 数组 ， 指 向 代表 打开 文件 的 内 核 文件 结构 。 在 进行 文件 IO 
系统 调用 时 ， 进 程 的 文件 引用 采用 一 个 整数 ， 称 为 文件 描述 符 ( file descriptor, fd), 
而 内 核 通 过 fd 索引 文件 表 。 

© 文件 系统 上 下 文 。 文 件 表 列 出 已 经 打开 的 文件 ， 而 文件 系统 上 下 文 用 于 请 求 打开 新 

文件 的 文件 系统 上 下 文 包 括 : 进程 的 根 目录 、 当 前 工作 目录 和 命名 空间 。 

e 信号 处 理 程序 表 。UNIX 系统 可 以 传递 异步 信号 到 进程 ， 以 响应 各 种 外 部 事件 。 信 和 号 

处 理 程序 表 定 义 了 响应 特定 信和 号 的 行为 。 有 效 行为 包括 : 忽略 信和 号、 终止 进程 并 调 


用 进程 地 址 空间 的 程序 。 
© 虚拟 内 存 上 下 文 。 虚 拟 内 存 上 下 文 描述 了 进程 的 私有 地 址 空间 的 全 部 内 容 ; 参见 16.6 W 
16.4.2 ”进程 与 线程 


Linux 提供 系统 调用 fork() ， 以 便 复制 进程 而 不 加 载 新 的 可 执行 映像 。Linux 也 提供 系 
统 调用 clone() ， 以 便 创建 线程 。 然 而 ，Linux 并 不 区 分 进程 和 线程 。 事 实 上 ， 在 提 到 程序 
内 的 控制 流 时 ，Linux 通常 使 用 术语 task (任务 )， 而 非 process (进程 ) BK thread (线程 )。 系 
统 调用 clone() 等 效 于 fork()，| 除 了 它 接受 作为 参数 的 一 组 标志 ， 以 决定 父 任务 与 子 任务 
共享 什么 资源 (通过 fork() 创建 的 进程 与 父 进 程 没 有 共享 资源 )。 这 些 标志 包括 : 









CLONE_FS 
CLONE_VM 

CLONE_SIGHAND 
CLONE_FILES 









文件 系统 信息 是 共享 的 
相同 的 内 存 空 间 是 共享 的 
信号 处 理 程序 是 共享 的 
打开 文件 集合 是 共享 的 
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因此 ， 如 果 clone() 被 传递 了 标志 CLONE_FS CLONE_VM,CLONE_SIGHAND 和 CLONE_FILES, 
父 任务 和 子 任务 会 共享 相同 的 文件 系统 信息 (如 当前 工作 目录 )、 相 同 的 内 存 空间 、 相 同 的 
信号 处 理 程序 及 相同 的 打开 文件 集 。 采 用 这 种 方式 使 用 clone() 等 效 于 其 他 系统 的 线程 创 
建 ， 因 为 父 任务 与 子 任务 共享 了 大 部 分 资源 。 然 而 ， 如 果 在 调用 clone() 时 没有 设置 这 些 
标志 ， 则 不 会 共享 相关 资源 ， 导 致 功能 类 似 于 系统 调用 fork()。 

进程 和 线程 之 间 缺 乏 区 别 是 可 能 的 ， 因 为 Linux 在 主 进程 数据 结构 中 没有 进程 的 整个 上 
下 文 。 相 反 ， 在 独立 的 子 上 下 文中 , 它 有 上 下 文 。 因 此 ， 进 程 的 文件 系统 上 下 文 、 文 件 描 述 
符 表 、 信 号 处 理 程序 表 和 虚拟 内 存 上 下 文保 存在 单独 的 数据 结构 中 。 进 程 数据 结构 只 是 简单 
地 包含 了 指向 这 些 其 他 结构 的 指针 ， 所 以 通过 指向 同一 子 上 下 文 并 增加 引用 计数 ， 任 何 数量 
的 进程 可 以 轻松 共享 子 上 下 文 。 

系统 调用 clone() 的 参数 告诉 它 ， 哪 个 子 上 下 文 需 要 复制 以 及 哪个 需要 共享 。 新 的 
进程 总 是 赋予 新 的 标识 符 和 新 的 调度 上 下 文 ， 这些 是 Linux 进程 必 不 可 少 的 。 然 而 ， 根 据 
传递 参数 ， 内 核 可 以 创建 新 的 子 上 下 文 数据 结构 ， 并 初始 化 为 父 进程 的 一 个 副本 ; 或 者 设 
置 新 进程 使 用 父 进 程 使 用 的 同一 上 下 文 数 据 结 构 。 系 统 调 用 fork() 只 不 过 是 一 个 特殊 的 
clone() ， 它 复制 所 有 子 上 下 文 ， 而 什么 也 不 共享 。 


16.5 调度 


调度 是 操作 系统 为 不 同 任务 分 配 CPU 时 间 。 与 所 有 UNIX 系统 一 样 ，Linux 支持 抢占 
式 多 任务 preemptive multitasking)。 对 于 这 些 系统 ， 进 程 调度 器 决定 哪个 进程 何 时 运行 。 
做 出 这 些 决定 以 便 平衡 许多 不 同 工 作 负载 的 公平 与 性 能 ， 是 现代 操作 系统 的 最 为 复杂 的 挑战 
is 

通常 ， 我 们 认为 调度 用 于 运行 和 中 断 用 户 进程 ， 但 是 调度 的 另 一 方面 对 于 Linux 也 很 重 
要 : 运行 各 种 内 核 任 务 。 内 核 任 务 包含 运行 进程 的 请 求 任 务 和 代表 内 核 本 身 在 内 部 执行 的 任 
F, W Linux 的 IO 子 系统 产生 的 任务 。 


16.5.1 进程 调度 


Linux 有 两 个 单独 的 进程 调度 算法 。 一 个 是 分 时 算法 ， 用 于 公平 的 、 抢 占 式 的 多 进程 调 
度 。 另 一 个 是 为 实时 任务 而 设计 的 ， 这 里 绝对 优先 比 公平 更 重要 。 

用 于 常规 分 时 任务 的 调度 算法 在 内 核 2.6 中 得 到 了 重大 修改 。 以 前 版 本 采用 了 传统 
UNIX 调度 算法 的 一 个 变 体 。 这 个 算法 对 SMP 系统 没有 提供 足够 的 支持 ; 随 着 系统 任务 数 
量 增长 ， 伸 缩 性 差 ， 对 于 交互 任务 (特别 是 ， 在 桌面 计算 机 和 移动 设备 等 上 )， 公 平 性 差 ; 
进程 调度 器 在 内 核 2.5 中 首先 得 到 了 大 改 。 版 本 2.5 的 调度 算法 只 需 恒 定时 间 来 选择 运行 
哪个 任务 ， 这 个 算法 是 O(1) 的 ， 与 系统 任务 或 处 理 器 的 数量 无 关 。 新 的 调度 程序 也 增加 
了 SMP 支持 ， 包 括 处 理 器 亲 和 与 负载 均衡 。 这 些 改 变 ， 虽 说 提高 了 可 伸缩 性 ， 但 是 没有 
改进 交互 性 或 公平 ， 实 际 上 使 这 些 问 题 在 某 些 工作 负载 下 更 糟 。 因 此 ， 进 程 调度 程序 在 内 
核 2.6 中 再 次 作 了 大 改 。 这 个 版 本 迎 来 了 完全 公平 调度 程序 (Completely Fair Scheduler, 
CES). 

Linux 调度 程序 是 个 抢占 式 的 、 基 于 优先 级 的 算法 ， 具 有 两 个 独立 的 优先 级 范围 : 
0 ~ 99 的 实时 (real time) 值 范 围 和 -20 ~ 19 的 友好 值 (nice value) 范围 。 更 小 的 友好 值 表 
示 更 高 的 优先 级 。 因 此 ， 通 过 增加 友好 值 ， 你 降低 了 优先 级 ， 并 对 其 余 系 统 “ 友 好 ”。 
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CFS 与 传统 UNIX 进程 调度 程序 有 很 大 不 同 。 对 于 后 者 ， 调 度 算 法 的 核心 变量 是 优先 
级 和 时 间 片 。 时 间 片 (time slice) 是 进程 得 到 的 时 间 长 度 (处 理 器 的 片 )。 传 统 UNIX 系统 给 
予 进程 一 个 固定 的 时 间 片 段 ， 也 许 低 优先 级 的 减速 ， 而 高 优先 级 的 加 速 。 进 程 可 以 运行 它 的 
时 间 片 段 的 长 度 ， 而 且 更 高 的 优先 级 进程 运行 在 低 优先 级 进程 之 前 。 这 是 一 个 简单 的 算法 ， 
用 于 许多 非 UNIX 系统 。 这 种 简单 性 对 于 早期 分 时 系统 很 能 奏效 ; 但 对 于 现代 桌面 和 移动 设 
备 , 已 证 明 无 法 提供 良好 的 交互 性 和 公平 性 。 

CFS 引入 了 一 种 新 的 调度 算法 ， 称 为 公平 调度 (fair scheduling)， 它 消除 了 传统 意义 上 
的 时 间 片 。 所 有 进程 都 分 配 了 处 理 器 的 部 分 时 间 ， 而 不 是 时 间 片 。 通 过 可 运行 进程 总 数 的 
函数 ，CFS 计算 进程 应 该 运行 多 长 时 间 。 开 始 ，CFS 说 ， 如 果 有 个 可 运行 进程 ， 则 每 个 [710 
应 该 提供 处 理 器 时 间 的 IN。 然 后 ，CFS 根据 每 个 进程 的 友好 值 来 加 权 分 配 ， 并 调整 这 个 
分 配 。 具 有 默认 友好 值 的 进程 具有 1 的 加 权 ， 即 优先 级 不 变 。 具 有 更 小 友好 值 (更 高 优先 
级 ) 的 进程 得 到 更 高 加 权 ， 而 具有 更 大 友好 值 (更 低 优先 级 ) 的 进程 得 到 更 低 加 权 。 最 后 ， 
CFS 运行 每 个 进程 一 个 “时 间 片 ”， 它 正比 于 每 个 进程 的 加 权 除 以 所 有 可 运行 进程 的 加 权 
总 和 。 

为 了 计算 进程 运行 的 实际 时 间 长 度 ，CFS 依赖 一 个 可 配置 变量 ， 称 为 目标 延迟 (target 
latency)， 这 是 每 个 可 运行 任务 应 该 运行 至 少 一 次 的 时 间 间 隔 。 例 如 ， 假 设 目标 延迟 为 10 Æ 
秒 。 再 假设 我 们 有 两 个 同样 优先 级 的 可 运行 进程 。 每 个 进程 具有 相同 的 加 权 ， 因 此 得 到 相同 
比例 的 处 理 器 时 间 。 在 这 种 情况 下 ， 由 于 目标 延迟 为 10 毫秒 ， 第 一 个 进程 运行 5 ewe, t 
着 男 一 个 进程 运行 5 毫秒 ， 然 后 第 一 个 进程 运行 $ 毫秒 ， 等 等 。 如 果 我 们 有 10 个 可 运行 进 
E, M CFS 会 运行 每 个 1 SH, HR. 

但 是 ， 如 果 我 们 有 1000 个 进程 呢 ? 如 果 我 们 遵循 刚刚 所 述 ， 则 每 个 进程 都 会 运行 1 
微 秒 。 由 于 切换 成 本 ， 调 度 进 程 如 此 短 的 时 间 是 低 效 的 。 因 此 ，CFS 依赖 第 二 个 可 配置 变 
量 ， 称 为 最 小 粒度 (minimum granularity)， 这 是 每 个 进程 分 得 的 最 小 时 间 长 度 。 无 论 目标 
延迟 如 何 ， 所 有 进程 将 至 少 运 行 最 小 粒度 。 按 照 这 种 方式 ，CFS 确保 ， 当 可 运行 进程 的 数 
量变 得 太 大 时 ， 切 换 成 本 不 会 变 得 不 可 接受 的 大 。 当 这 样 做 时 ， 它 违反 试图 公平 。 然 而 ， 
在 通常 的 情况 下 ， 可 运行 进程 的 数量 仍然 是 合理 的 ， 公 平 得 以 最 大 化 ， 而 切换 成 本 得 以 最 
小 化 。 

由 于 转 到 公平 调度 ，CFS 与 传统 UNIX 进程 调度 器 有 很 多 不 同 。 最 为 显著 地 ， 正 如 我 们 
所 看 到 的 ,CFS 消除 了 静态 时 间 片 的 概念 。 相 反 ， 每 个 进程 都 接收 到 一 定 比 例 的 处 理 器 时 间 。 
分 配 多 长 ， 取 决 于 现 有 多 少 其 他 可 运行 进程 。 这 种 方法 解决 了 册 射 优先 级 到 时 间 片 的 多 个 问 
题 ， 这 个 映射 是 抢占 式 、 基 于 优先 级 的 调度 算法 所 固有 的 。 当 然 ， 有 可 能 采用 其 他 方式 解决 
这 些 问题 ， 而 并 不 放弃 经 典 的 UNIX 调度 程序 。 然 而 ，CFS 采用 了 一 个 简单 算法 来 解决 这 些 
问题 ， 这 个 算法 在 交互 工作 负载 (如 移动 设备 ) 上 表现 良好 ， 而 且 不 会 影响 大 型 服务 器 的 知 
吐 性 能 。 


16.5.2 ”实时 调度 


Linux 实时 调度 算法 比 用 于 标准 分 时 进程 的 公平 调度 明显 简化 了 。Linux 实现 了 POSIX.1b 
要 求 的 两 个 实时 调度 类 : 先 到 先 得 (FCFS) 和 轮转 (round-robin) (分 别 为 5.3.1 WA 5.3.4 
节 )。 在 这 两 种 情况 下 ， 除 了 调度 类 别 之 外 ， 每 个 进程 都 具有 优先 级 。 调 度 程 序 总 是 运行 最 
高 优先 级 的 进程 。 对 于 同等 优先 级 的 进程 ， 它 运行 等 待 最 久 的 进程 。 FCFS 和 轮转 调度 的 唯 
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一 区 别 是 : FCFS 进程 继续 运行 直到 它们 退出 或 阻止 ; 而 轮转 进程 运行 一 段 时 间 会 被 抢占 ， 
并 被 移 到 调度 队列 的 最 后 ， 所 以 相同 优先 级 的 进程 会 自动 分 享 时 间 。 

Linux 实时 调度 是 软 实 时 的 ， 而 不 是 硬 实时 的 。 调 度 程序 严格 保证 实时 进程 的 相对 优先 
级 ,但 是 当 进 程 一 旦 变 得 可 运行 ， 它 会 等 待 多 久 才 能 运行 ， 内 核 没 有 提供 任何 保证 。 相 反 ， 
硬 实时 系统 可 以 保证 ， 从 进程 变 得 可 运行 到 它 实际 运行 的 最 小 等 待 时 间 。 


16.5.3 ”内核 同 步 


内 核 调 度 自身 操作 的 方式 根本 不 同 于 内 核 调 度 进程 的 方式 。 请 求 内 核 模式 执行 可 以 通过 
两 种 方式 。 运 行程 序 可 以 请 求 操作 系统 服务 ,或 是 显 式 的 (通过 系统 调用 ) 或 是 隐 式 的 ( 例 
如 ， 当 页 面 故 障 发 生 时 )。 另 外 ， 设 备 控制 器 可 以 传递 硬件 中 断 ， 导 致 CPU 开始 执行 内 核定 
义 的 中 断 处 理 程序 。 

内 核 的 问题 是 ， 所 有 这 些 任务 可 能 都 会 尝试 访问 相同 的 内 部 数据 结构 。 如 果 当 一 个 内 核 
任务 正在 访问 某 个 数据 结构 时 ， 一 个 中 断 服务 程序 开始 执行 ， 则 在 不 冒 损坏 数据 的 风险 的 情 
况 下 ， 这 个 服务 程序 不 能 访问 或 修改 相同 的 数据 。 这 涉及 临界 区 ， 即 共享 数据 的 访问 代码 不 
能 允许 并 发 执行 。 因 此 ， 内 核 同步 涉及 很 多 内 容 ， 而 不 只 是 进程 调度 。 为 了 允许 内 核 任务 运 
行 而 不 违反 共享 数据 的 完整 性 ， 需 要 一 个 框架 。 

在 2.6 版 之 前 ，Linux 是 非 抢 占 式 的 ， 这 意味 着 以 内 核 模式 运行 的 进程 不 能 被 抢占 ， 即 
使 更 高 优先 级 的 进程 可 以 用 来 运行 。 对 于 2.6 版 ，Linux 内 核 变 为 完全 抢占 的 。 现 在 ， 任 务 
在 内 核 中 运行 时 也 可 以 被 抢占 。 

Linux 内 核 提 供 了 自 旋 锁 和 信和 号 量 (以 及 这 两 种 锁 的 读者 - 写 者 版 本 )， 用 于 在 内 核 中 加 
锁 。 对 于 SMP 机 器 ， 基 本 的 加 锁 机 制 是 自 旋 锁 ， 内 核 设计 允许 自 旋 锁 被 持 有 很 短 时 间 。 对 
于 单 处 理 器 机 器 ， 自 旋 锁 就 不 适合 使 用 ， 而 是 换 成 启用 和 禁用 内 核 抢占 。 也 就 是 说 ， 任 务 禁 
用 内 核 抢 占 ， 而 不 是 持 有 自 旋 锁 。 当 任务 本 应 释放 自 旋 锁 时 ， 它 启用 内 核 抢 占 。 这 个 模式 总 
结 如 下 : 


单 处 理 器 多 处 理 器 
禁用 内 核 抢 占 持 有 自 旋 锁 
启用 内 核 抢占 释放 自 旋 锁 


Linux 使 用 一 种 有 趣 的 方法 来 禁用 或 启用 内 核 抢 占 。 它 提供 两 个 简单 的 内 核 接 口 ， 即 
preempt_disable() fil preempt_enable() 另外 ， 当 内 核 模 式 任务 持 有 自 旋 锁 时 ， 内 核 不 会 
被 抢占 。 为 了 实施 这 个 规则 ， 系 统 内 的 每 个 任务 都 有 一 个 结构 thread-info， 它 包括 字段 
preempt_count ， 这 个 计数 器 用 于 表示 任务 持 有 锁 的 数量 。 这 个 计数 器 当 获 取 锁 时 递增 ， 而 当 
释放 锁 时 递减 。 如 果 当 前 运行 任务 的 preempt_count 值 大 于 零 ， 则 抢占 内 核 是 不 安全 的 ， 因 为 
这 个 任务 当前 持 有 一 个 锁 。 如 果 这 个 计数 为 零 ， 而 且 没 有 未 完成 的 调用 preempt_disable(), 
则 内 核 可 以 被 安全 地 中 断 。 

自 旋 锁 与 内 核 抢占 的 启用 和 禁用 一 起 ， 仅 当 锁 被 持 有 较 短 时 间 时 才 用 于 内 核 。 当 锁 必 须 
被 持 有 较 长 时 间 时 才 会 使 用 信号 量 。 

Linux 使 用 的 第 二 种 保护 技术 适用 于 中 断 服务 程序 内 的 临界 区 。 这 个 基本 工具 是 处 理 咒 
的 中 断 控制 硬件 。 通 过 在 临界 区 中 禁用 中 断 〈 或 采用 自 旋 锁 )， 内 核 保 证 它 可 以 继续 ， 而 没 
有 并 行 访问 共享 数据 结构 的 风险 。 
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但 是 ， 禁 用 中 断 有 代价 。 对 于 大 多 数 的 硬件 架构 ， 中 断 启 用 与 禁用 指令 并 不 便宜 。 更 为 
重要 的 是 ， 只 要 中 断 保 持 禁 用 ， 所 有 IO 都 被 挂 起 ， 等 待 服务 的 任何 设备 将 不 得 不 等 竺 中断 
重新 启用 ; 从 而 ， 性 能 下 降 。 为 了 解决 这 个 问题 ，Linux 内 核 采用 一 种 同步 架构 ， 人 允许 长 临 
界 区 运行 整个 持续 时 间 ， 而 没有 禁用 中 断 。 这 种 功能 对 于 网 络 代码 特别 有 用 。 网 络 设备 驱动 
程序 内 的 中 断 ， 可 以 标志 一 个 完整 网 络 包 的 到 达 ， 可 能 导致 执行 中 断 服务 程序 的 大 量 代码 ， 
以 便 拆 解 、 路 由 和 转发 这 个 包 。 

Linux 这 个 架构 的 实现 将 中 断 服务 程序 分 为 两 个 部 分 : 上 半 部 (top-half) 与 下 半 部 
( bottom-half)。 上 半 部 是 标准 的 中 断 服务 程序 ， 当 它 运 行 时 递归 中 断 会 被 禁用 。 相 同 号 码 
(或 线路 ) 的 中 断 会 被 禁用 ， 但 是 其 他 中 断 可 以 运行 。 当 中 断 服务 程序 的 下 半 部 运行 时 ， 所 
有 中 断 都 被 启用 ; 通过 微型 调度 程序 ， 可 以 确保 下 半 部 不 能 互相 中 断 。 每 当中 断 服务 程 序 退 
出 时 ， 就 会 自动 调用 下 半 部 的 调度 程序 。 

这 种 分 离 意味 着 ， 内 核 可 以 完成 因 响 应 中 断 而 必须 执行 的 任何 复杂 处 理 ， 而 且 无 需 担心 
本 身 会 被 中 断 。 如 果 当 下 半 部 正在 执行 时 出 现 了 男 一 个 中 断 ， 则 这 个 中 断 可 以 请 求 同 一 个 下 
半 部 执行 ， 但 是 这 个 执行 会 被 推迟 ， 直 到 当前 正在 运行 的 下 半 部 完成 。 下 半 部 的 每 次 执行 可 
以 被 上 半 部 所 中 断 ， 但 是 永远 不 会 被 类 似 的 下 半 部 所 中 断 。 

上 半 部 /下 半 部 架构 的 完成 机 制 是 ， 在 执行 常规 前 台 内 核 代 码 时 禁用 所 选 的 下 半 部 。 内 
核 通过 这 种 机 制 可 以 轻松 编写 临界 区 。 中 断 处 理 程序 可 以 将 其 临界 区 编写 为 下 半 部 ; 而且， 
当前 台 内 核 想 要 进入 临界 区 时 ， 它 可 以 禁用 任何 下 半 部 ， 防 止 任何 其 他 临界 区 中 断 它 ; 在 临 
界 区 的 末尾 ， 内 核 可 以 重新 启用 下 半 部 ， 并 运行 在 临界 区 中 由 上 半 部 中 断 服务 程序 排队 的 任 
何 下 半 部 任务 。 

图 16-2 总 结 了 内 核 内 部 的 中 断 保 护 的 各 种 级 别 。 每 个 级 别 可 以 被 更 高 级 别 的 代码 所 中 
断 ， 但 是 决 不 会 被 同一 级 别 的 或 更 低级 别 的 代码 所 中 断 。 除 了 用 户 模式 的 代码 外 ， 当 分 时 调 
度 中 断 出 现时 ， 用 户 进程 总 是 可 以 被 另 一 进程 所 抢占 。 


“用户 模 起 程序 《可 抢占 ) 
图 16-2 中断 保护 级 别 





16.5.4 ”对 称 多 处 理 


Linux 2.0 内 核 是 支持 对 称 多 处 理 机 (Symmetric MultiProcessor, SMP) 硬件 的 首 个 稳定 
Linux 内 核 ， 允 许 不 同 进程 并 行 执 行 在 不 同 处 理 器 上 。SMP 的 最 初 实现 有 个 限制 ， 同 一 时 间 
只 有 一 个 处 理 器 可 以 执行 内 核 代码 。 

在 内 核 2.2 中 ， 单 个 内 核 自 旋 锁 (有 时 称 为 大 内 核 锁 ( Big Kernel Lock, BKL)) 可 被 创 
建 ， 允 许多 个 进程 (运行 在 不 同 处 理 嚣 上) 在 内 核 中 同时 处 于 活动 状态 。 然 而 ，BKL 提供 了 
非常 粗 粒度 的 加 锁 ， 导 致 具有 许多 处 理 器 和 进程 的 机 器 的 可 伸缩 性 差 。 后 来 版 本 的 内 核 将 
这 个 单一 内 核 自 旋 锁 拆 分 成 多 个 锁 ， 而 每 个 锁 只 保护 内 核 数据 结构 的 一 小 部 分 ， 从 而 提高 


488 RED ARK 


SMP 实现 的 可 伸缩 性 。16.5.3 节 讨 论 了 这 种 自 旋 锁 。 内 核 3.0 提供 了 额外 的 SMP 增强 ， 包 
括 更 细 粒 度 的 加 锁 、 处 理 器 亲 和 以 及 负载 平衡 算法 。 


16.6 ”内 存 管理 


Linux 内 存 管理 有 两 个 组 件 。 第 一 个 按 页 、 页 组 和 小 块 RAM 来 分 配 和 释放 物理 内 存 。 
第 二 个 处 理 虚 拟 内 存 ， 这 是 映射 到 运行 进程 地 址 空间 的 内 存 。 本 节 首 先 描述 这 两 个 组 件 ， 然 
后 分 析 为 响应 系统 调用 exec O 将 新 程序 的 可 加 载 部 分 导入 进程 虚拟 内 存 的 机 制 。 


16.6.1 ”物理 内 存 管理 


由 于 特定 硬件 限制 ，Linux 将 物理 内 存 分 为 4 个 不 同 区 域 (zone): 

e ZONE_DMA 

e ZONE_DMA32 

e ZONE_NORMAL 

e ZONE_HIGHMEM 
这 些 区 域 与 架构 相关 。 例 如 ， 在 Intel x86-32 架构 上 ， 有 些 行业 标准 架构 (Industry Standard 
Architecture, ISA) 设备 ， 只 能 通过 DMA 访问 物理 内 存 的 较 低 16MB。 在 这 些 系统 上 ， 物 理 
内 存 的 前 16MB 包括 ZONE_DMA。 在 其 他 系统 上 ， 某 些 设备 只 能 访问 物理 内 存 的 前 4GB， 尽 
管 支持 64 位 的 地 址 。 在 这 些 系 统 上 ， 物 理 内 存 的 前 4GB 包括 ZONE_DMA32。ZONE_HIGHMEM 
(“高 内 存 ”) 指 的 是 ， 尚 未 映射 到 内 核 地 址 空间 的 物理 内 存 。 例 如 ， 对 于 32 位 Intel 架构 (其 
中 2 提供 了 4GB 的 地 址 空间 )， 内 核 映 射 到 地 址 空间 的 前 896MB ; 一 余 的 内 存 称 为 高 内 
存 (high memory)， 并 从 ZONE_HIGHMEM 中 分 配 。 最 后 ，ZONE_NORMAL 包括 其 他 一 切 ， 即 
正常 的 映射 页 面 。 一 个 架构 是 否 具有 给 定 的 区 域 取 决 于 它 本 身 的 约束 。 现 代 64 位 架构 ， 如 
Intel x86-64， 有 小 的 16MB ZONE_DMA (用 于 旧 设 备 )， 其 余 所 有 内 存 都 是 ZONE_NORMAL, 
没有 “高 内 存 ”。 

Intel x86-32 架构 的 区 域 和 物理 地 址 的 关系 如 图 16-3 所 示 。 内 核 为 每 个 区 域 维护 一 个 空 
闲 页 面 列 表 。 当 物理 内 存 的 请 求 到 达 时 ， 内 核 通 过 适当 区 域 来 满足 这 个 请 求 。 
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图 16-3 Intel x86-32 的 区 域 和 物理 地 址 的 关系 


Linux 内 核 的 主要 物理 内 存 管理 器 是 页 面 分 配器 (page allocator)。 每 个 区 域 都 有 自己 的 
分 配器 ， 负 责 分 配 和 释放 它 的 所 有 物理 页 面 ， 并 且 能 够 根据 请 求 分 配 连 续 物 理 页 面 。 分 配器 
使 用 伙伴 系统 (9.8.1 节 ) 来 跟踪 可 用 的 物理 页 面 。 通 过 这 个 方案 ， 可 分 配 内 存 的 毗邻 单元 
配对 在 一 起 (名 字 由 此 而 来 )。 每 个 可 分 配 内 存 区 域 都 有 一 个 与 之 毗邻 的 伙伴 。 每 当 两 个 可 
分 配 的 伙伴 被 释放 时 ， 它 们 结合 并 形成 一 个 更 大 区 域 ， 即 伙伴 堆 (buddy heap )。 这 个 更 大 区 
域 也 有 一 个 伙伴 ， 它 们 可 以 结合 起 来 以 形成 一 个 更 大 的 空闲 区 域 。 相 反 ， 如 果 一 个 小 内 存 请 
求 不 能 通过 分 配 现 有 小 的 空闲 区 域 来 满足 ， 则 一 个 更 大 空闲 区 域 会 被 分 成 两 个 伙伴 以 满足 请 
Ro 单独 的 链表 用 于 记录 每 个 可 分 配 大 小 的 空闲 内 存 区 域 。 对 于 Linux， 这 种 机 制 的 最 小 可 
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分 配 的 大 小 是 单个 物理 页 面 。 图 16-4 显示 了 伙伴 堆 分 配 的 一 个 例子 。 一 个 4KB 区 域 等 待 分 
配 ， 但 是 最 小 可 用 区 域 是 16KB。 这 个 16KB KIR 
会 被 递归 分 解 ， 直 到 所 需 尺寸 的 区 域 可 用 为 止 。 

RA, Linux 内 核 的 所 有 内 存 分 配方 式 分 为 动 
态 和 静态 。 静 态 分配 是 驱动 程序 在 系统 启动 时 预 
留连 续 内 存 区 域 ; 动态 分 配 是 通过 页 面 分 配器 来 分 
配 内 存 。 然 而 ， 内 核 函 数 不 必 使 用 基本 分 配器 来 
预 留 内 存 。 多 个 专用 的 内 存 管 理子 系统 使 用 底层 
页 面 分 配器 ， 以 便 管 理 内 存 池 。 最 重要 的 包括 : 虚 图 
拟 内 存 系统 ， 如 16.6.2 节 所 述 ; kmalloc() 可 变 
长 的 分 配器 ; slab 分 配器 ， 用 于 为 内 核 数据 结构 分 配 内 存 ; 和 页 面 缓存 ， 用 于 缓存 文件 页 面 。 

Linux 操作 系统 的 许多 组 件 ， 根 据 请 求 需 要 分 配 整个 页 面 ， 但 是 经 常 需要 更 小 的 内 存 
块 。 内 核 提 供 另 外 一 个 分 配器 ， 以 用 于 任意 大 小 的 请 求 ， 这 里 请 求 的 大 小 预先 并 不 知道 ， 
可 能 只 有 数 个 字 节 。 类 似 于 C 语言 的 函数 malloc() ， 这 个 服务 kmalloc() 根据 需要 以 整 
个 物理 页 面 为 单位 来 分 配 ， 然 后 将 它们 分 成 较 小 的 部 分 。 内 核 维护 服务 kmalloc() 使 用 的 
页 面 列表 。 分 配 内 存 包括 : 确定 适当 的 列表 ， 取 出 列表 上 的 第 一 个 可 用 空闲 块 ， 或 者 分 配 
一 个 新 的 页 面 并 将 其 拆 分 。kmalloc() 系统 分 配 的 内 存 区 域 被 永久 地 分 配 ， 直 到 它们 通过 
调用 kfree() 而 被 显 式 释放 ; kmalloc() 系统 不 能 由 于 内 存 短 缺 ， 而 重新 分 配 或 回收 这 些 
区 域 。 

Linux 分 配 内 核 内 存 的 另 一 策略 称 为 slab 分 配 。slab 用 于 为 内 核 数据 结构 分 配 内 存 ， 它 
由 一 个 或 多 个 物理 上 相 邻 的 页 面 组 成 。cache 包括 一 个 或 多 个 slab。 每 个 唯一 内 核 数 据 结 
构 都 有 一 个 cache， 例 如 ， 表 示 进 程 描述 符 数据 结构 的 cache、 文 件 对 象 的 cache, inode 的 
cache 等 。 每 个 cache 填充 了 对 象 (object)， 这 些 对 象 是 cache 代表 的 内 核 数据 结 构 的 实例 。 
例如 ， 表 示 inode 的 cache 存储 inode 结构 的 实例 ， 表 示 进 程 描述 符 的 cache 存储 进程 描述 
符 结构 的 实例 。 图 16-5 显示 了 slab, cache 和 对 象 之 间 的 关系 。 该 图 显示 了 2 个 大 小 为 3KB 
的 内 核对 象 和 3 个 大 小 为 7KB 的 对 象 。 这 些 对 象 存 储 在 3KB 和 7KB 对 象 的 cache 中 。 


内 核对 象 cache slab 


hd 


16-4 伙伴 系统 的 内 存 分 割 


物理 连续 的 页 面 


7KB 对 象 





16-5 Linux 的 slab 分 配器 


slab 分 配 算法 采用 cache 来 存储 内 核对 象 。 当 cache 创建 时 ， 多 个 对 象 会 分 配 到 cache. 
cache 内 的 对 象 数 量 取 决 于 相关 slab 的 大 小 。 例 如 ，12KB slab (包括 3 个 相 邻 的 、 大 小 为 
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4KB 的 页 面 ) 可 以 保存 到 6 个 大 小 为 2KB 的 对 象 。 起 初 , cache 中 的 所 有 对 象 都 标记 为 空闲 。 
当 需 要 内 核 数 据 结构 的 一 个 新 对 象 时 ， 分 配 程序 可 以 从 cache 中 分 配 任 意 空闲 的 对 象 来 满足 
请 求 。 从 cache 中 被 分 配 的 对 象 则 被 标记 为 已 使 用 。 

现在 考虑 这 样 一 个 场景 ， 内 核 从 slab 分 配 程序 中 请 求 内 存 ， 用 于 表示 进程 描述 符 的 对 
象 。 在 Linux 系统 中 ， 进 程 描述 符 为 struct task_struct 类 型 ， 它 需要 大 约 1.7KB 的 内 存 。 
当 Linux 内 核 创建 一 个 新 任务 时 ， 它 从 cache 中 请 求 struct task_struct 对 象 的 所 需 内 存 。 
cache 采用 已 经 在 slab 中 分 配 的 并 标记 为 空闲 的 struct task_struct 对 象 ， 来 满足 请 求 。 

在 Linux 中 ，slab 有 三 个 可 能 状态 : 

o 满 的 : slab 内 的 所 有 对 象 标记 为 已 使 用 。 

e SH: slab 内 的 所 有 对 象 标记 为 空闲 。 

e 未 满 的 : slab 包括 已 使 用 的 和 空闲 的 对 象 。 
slab 分 配器 首先 试图 采用 部 分 slab 中 的 空闲 对 象 ， 来 满足 请 求 。 如 果 没 有 这 样 的 对 象 ， 则 从 
空 的 slab 中 分 配 一 个 空闲 对 象 。 如 果 没 有 空 的 slab 可 用 ， 则 从 物理 上 相 邻 页 面 中 分 配 一 个 
新 slab 并 分 配给 缓存 ; 接着 从 这 个 slab 中 分 配对 象 内 存 。 

Linux 中 的 另外 两 个 主要 子 系统 自己 管理 物理 页 面 : 页 面 缓存 和 虚拟 内 存 系 统 。 这 些 系 
统 彼此 密切 相关 。 页 面 缓存 (page cache) 是 内 核 的 主要 文件 缓存 ， 并 且 也 是 与 块 设备 进行 
VO 操作 的 主要 机 制 (16.8.1 节 )。 所 有 类 型 的 文件 系统 ， 包 括 原本 基于 Linux 的 磁盘 文件 系 
统 和 NFS 网 络 文件 系统 ， 通 过 页 面 缓存 来 执行 TO。 页 面 缓存 存储 整个 文件 的 页 面 内 容 ， 而 
不 限于 块 设备 。 它 也 可 以 缓存 网 络 数据 。 虚 拟 内 存 系统 管理 每 个 进程 虚拟 地 址 空间 的 内 容 。 
这 两 个 系统 紧密 相 联 ， 因 为 读 和 人 一 个 页 面 数据 到 页 面 缓存 ， 需 要 使 用 虚拟 内 存 系统 来 映射 页 
面 到 页 面 缓 存 。 下 一 切 更 为 详细 地 讨论 虚拟 内 存 系统 。 


16.6.2 ”虚拟 内 存 


Linux 虚拟 内 存 系统 负责 维护 每 个 进程 可 访问 的 地 址 空间 。 它 根据 需要 创建 虚拟 内 存 的 
页 面 ， 管 理 从 磁盘 中 加 载 这 些 页 面 并 且 按照 要 求 交 换 页 面 回 到 磁盘 。 在 Linux 下 ， 虚 拟 内 存 
管理 器 维护 进程 地 址 空间 的 两 个 单独 视图 : 作为 一 组 独立 区 域 ， 或 作为 一 组 页 面 。 

地 址 空间 的 第 一 种 视图 是 逻辑 视图 ， 以 描述 虚拟 内 存 系 统 收 到 的 有 关 地 址 空间 布局 的 指 
令 。 在 这 种 视图 中 ， 地 址 空间 包括 一 组 非 重 全 的 区 域 ， 每 个 区 域 是 连续 的 、 页 面 对 齐 的 地 址 
空间 子 集 。 每 个 区 域内 部 采用 结构 vm_area_struct 来 定义 区 域 的 属性 ， 包 括 进 程 对 区 域 的 
读 、 写 和 执行 许可 ， 以 及 与 区 域 相关 的 任何 文件 的 信息 。 每 个 地 址 空间 的 区 域 都 被 链接 到 一 
个 平衡 二 又 树 ， 以 便 快 速 查找 任何 与 虚拟 地 址 对 应 的 区 域 。 

内 核 还 维护 每 个 地 址 空间 的 第 二 种 视图 ， 即 物理 视图 。 这 种 视图 存储 在 进程 的 硬件 页 
表 中 。 页 表 条 目标 识 虚拟 内 存 中 的 每 个 页 面 的 确切 位 置 ， 无 论 它 是 在 磁盘 中 还 是 在 物理 内 存 
里 。 物 理 视图 由 一 组 程序 来 管理 ; 每 当 进程 试图 访问 当前 不 在 页 表 中 的 页 面 时 ， 内 核 中 断 处 
理 程序 调用 这 些 程序 。 地 址 空间 描述 的 每 个 结构 vm_area_struct 包括 指向 函数 表 的 一 个 字 
段 ， 这 些 函 数 为 任何 给 定 的 虚拟 内 存 区 域 而 实现 页 面 管理 的 重要 功能 。 无 效 页 面 的 所 有 读 写 
请 求 最 终 分 派 到 vm_area_struct 的 函数 表 中 的 适当 处 理 程 序 。 这 样 ， 中 心 内 存 管 理 程序 不 
必 知 道 管理 每 个 可 能 类 型 内 存 区 域 的 细节 。 
16.6.2.1 虚拟 内 存 区 域 

Linux 实现 了 多 种 类 型 的 虚拟 内 存 区 域 。 表 征 虚 拟 内 存 的 一 个 属性 是 区 域 的 后 备 存储 ， 
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用 于 描述 区 域 页 面 的 来 源 。 大 多 数 内 存 区 域 或 有 文件 备份 或 没有 备份 。 没 有 任何 备份 的 区 域 
是 最 简单 的 虚拟 内 存 区 域 。 这 样 的 区 域 叫 作 按 需 填 零 内 存 ( demand-zero memory): 当 进程 
试图 读 人 一 个 区 域 页 面 时 ， 它 会 简单 地 得 到 一 个 填 满 零 的 内 存 页 面 。 

文件 备份 区 域 作为 文件 某 个 部 分 的 视 口 。 每 当 进 程 尝试 访问 一 个 区 域 页 面 时 ， 页 表 填 充 
的 会 是 内 核 页 面 缓存 中 的 页 面 地 址 ， 对 应 于 文件 的 适当 偏 移 。 物 理 内 存 的 同一 页 面 既 用 于 页 
面 缓存 也 用 于 进程 页 面 表 ， 所 以 文件 系统 对 文件 的 任何 更 改 ， 对 于 已 经 映射 这 个 文件 到 地 址 
空间 的 任何 进程 ， 立 即 可 见 。 任 意 数量 的 进程 可 以 映射 同一 文件 的 同一 区 域 ， 它 们 为 了 同样 
目的 将 会 最 终 使 用 物理 内 存 的 同一 页 面 。 

虚拟 内 存 区 域 也 由 写 入 响应 来 定义 。 从 区 域 到 进程 地 址 空间 的 映射 是 私有 的 或 是 共享 
的 。 如 果 进 程 写 到 私有 映射 区 域 ， 则 分 页 程序 检测 到 写 时 复制 (copy-on-write) 必须 保存 进 
程 的 私有 更 改 。 相 反 ， 共 享 区 域 的 写 人 导致 更 新 映射 到 这 个 区 域 的 对 象 ;， 这 样 这 种 更 改 ， 对 
于 映射 这 个 对 象 的 任何 其 他 进程 ， 立 即 可 见 。 
16.6.2.2 ”虚拟 地 址 空间 的 寿命 

内 核 在 两 种 情况 下 创建 新 的 虚拟 地 址 空间 : 当 进 程 通过 系统 调用 exec() 运行 新 的 程序 
时 和 当 新 进程 通过 系统 调用 fork() 加 以 创建 时 。 第 一 种 情况 比较 简单 。 当 新 的 程序 被 执行 
时 ， 这 个 进程 得 到 新 的 、 完 全 空白 的 虚拟 地 址 空间 。 通 过 这 些 程序 ， 加 载 程序 以 填充 虚拟 内 
存 区 域 的 地 址 空间 。 

第 二 种 情况 ， 采 用 fork() 创建 新 进程 ， 涉 及 创建 现 有 进程 虚拟 地 址 空间 的 完整 副本 。 
内 核 复 制 父 进程 的 vm_area_struct 描述 符 ， 然 后 为 子 进程 创建 一 组 页 表 。 父 进程 页 表 直 接 
复制 到 子 进程 ， 每 个 相关 页 面 的 引用 计数 随 之 递增 ,。 因此， 在 fork 后 ， 父 进程 与 子 进程 共 
享 它们 地 址 空间 的 同样 物理 内 存 页 面 。 

当 复制 操作 磁 到 虚拟 内 存 的 私有 映射 区 域 时 ， 就 会 产生 另外 一 种 特殊 情况 。 父 进程 写 到 
这 种 区 域内 的 任何 页 面 是 私有 的 ， 父 进程 或 子 进程 对 这 些 页 面 的 后 续 更 改 不 应 更 改 其 他 进程 
地 址 空间 的 页 面 。 当 这 些 区 域 的 页 表 条 目 被 复制 时 ， 它 们 设置 为 只 读 ， 并 标记 为 写 时 复制 。 


只 要 两 个 进程 都 不 改变 这 些 页 面 ， 它 们 共享 物理 内 存 的 同样 页 面 。 然 而 ， 如 果 任 一 进程 尝试 ， 


修改 写 时 复制 页 面 ， 就 会 检查 页 面 的 引用 次 数 。 如 果 页 面 仍 然 是 共享 的 ， 那么 进程 复制 页 面 
内 容 到 物理 内 存 的 全 新 页 面 ， 而 使 用 副本 。 这 种 机 制 确保 : 只 要 可 能 ， 进 程 共 享 私 有 数据 页 
面 ; 只 有 绝对 必要 ， 才 会 复制 页 面 。 

16.6.2.3 ”交换 与 分 页 

虚拟 内 存 系统 的 一 项 重要 任务 是 : 当 需 要 内 存 时 ， 重 定位 内 存 页 面 从 物理 内 存 到 磁盘 。 
早期 的 UNIX 系统 通过 一 次 换 出 整个 进程 内 容 来 实现 重 定位 ,但 是 现代 版 本 的 UNIX 更 加 依 
赖 分 页 ， 即 在 物理 内 存 与 磁盘 之 间 移 动 虚拟 内 存 的 单个 页 面 。Linux 并 不 实现 整个 进程 的 交 
换 ， 而 只 使 用 更 新 的 分 页 机 制 。 

分 页 系统 可 以 分 为 两 个 部 分 。 第 一 部 分 ， 策 略 算法 (policy algorithm) 决定 哪个 页 面 写 
到 磁盘 和 何 时 写 和 它们。 第 二 部 分 ， 分 页 机 制 (paging mechanism) 执行 传输 ， 并 在 再 次 需 
要 时 将 数据 页 面 调 回 到 物理 内 存 。 

Linux 页 面 换 出 策略 ( pageout policy) 采用 9.4.5.2 节 讨 论 的 标准 时 钟 (或 第 二 次 机 会 ) 
算法 的 修改 版 。Linux 使 用 多 轮 时 钟 ， 每 个 页 面 都 有 一 个 年 龄 (age)， 它 随 着 每 次 时 钟 轮回 
而 调整 。 年 龄 更 确切 地 是 页 面 的 新 鲜 度量 ,或 页 面 的 最 近 活 跃 程 度 。 经 常 访问 页 面 会 有 更 高 
的 年 龄 值 ， 不 经 常 访问 页 面 的 年 龄 随 着 每 次 时 钟 轮 回 向 零 递减 。 这 个 年 龄 值 允许 分 页 程序 ， 
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根据 LFU (最 近 最 少 使 用 ) 策略 选择 需要 换 出 的 页 面 。 

分 页 机 制 支持 : 专用 交换 设备 和 分 区 ， 以 及 普通 文件 ， 尽 管 文件 系统 的 额外 开销 使 得 
文件 交换 明显 较 慢 。 根 据 使 用 块 的 位 图 (总 是 维护 在 物理 内 存 中 )， 从 交换 设备 可 以 分 配 块 。 
分 配 程序 采用 下 次 适应 ( next-fit) 算法 ， 尝 试 写 出 页 面 到 连续 磁盘 块 ， 从 而 提高 性 能 。 通 过 
现代 处 理 器 的 页 表 特 征 ， 分 配 程序 记录 页 面 换 到 磁盘 的 情况 : 当 页 表 条 目的 page-not-present 
位 设 定 后 ， 这 个 页 表 条 目的 其 他 位 被 十 上 索引 ， 以 表示 页 面 写 出 的 位 置 。 
16.6.2.4 内核 虚拟 内 存 

Linux 为 内 部 使 用 保留 了 一 个 恒定 的 、 依 赖 体 系 结构 的 每 个 进程 虚拟 地 址 空间 区 域 。 映 
射 到 这 些 内 核 页 面 的 页 表 条 目标 记 为 保护 的 ; 这 样 当 处 理 器 在 用 户 模 式 下 运行 时 ， 这 些 页 面 
是 不 可 见 的 或 者 不 可 修改 的 。 这 个 内 核 虚拟 内 存 区 域 包括 两 个 区 域 。 第 一 个 是 包含 页 表 引 用 
的 静态 区 域 ， 这 些 引 用 指向 系统 中 的 物理 内 存 的 可 用 页 面 。 这 样 当 内 核 代 码 运行 时 ， 从 物理 
地 址 到 虚拟 地 址 只 需 简 单 转换 。 内 核 核 心 ， 与 普通 页 面 分 配器 分 配 的 所 有 页 面 一 起 ， 驻 留 在 
此 区 域 。 

内 核 保 留 的 地 址 空间 的 剩余 部 分 没有 特别 用 途 。 这 个 地 址 范围 的 页 表 条 目 可 以 由 内 核 来 
修改 ， 以 指向 其 他 内 存 区 域 。 内 核 提 供 了 一 对 函数 ， 以 允许 内 核 代码 使 用 这 个 虚拟 内 存 。 郴 
数 vmalloc() 将 任意 数量 的 物理 上 可 能 不 连续 的 物理 内 存 页 面 ， 分 配 到 一 个 连续 的 虚拟 内 
核 区 域 。 函 数 vremap() 映射 一 个 虚拟 地 址 序列 ， 以 便 指 向 设备 驱动 程序 用 于 内 存 映 射 IO 
的 一 个 内 存 区 域 。 


16.6.3 ”执行 与 加 载 用 户 程序 


Linux 内 核 执 行 用 户 程序 ， 通 过 调用 系统 调用 exec() 来 触发 。 这 个 exec() 调用 命令 
内 核 ， 在 当前 进程 内 运行 新 的 程序 ， 采 用 新 程序 的 初始 上 下 文 来 完全 覆盖 当前 执行 上 下 文 。 
这 个 系统 服务 的 第 一 项 工作 就 是 验证 ， 调 用 进程 是 否 具 有 执行 文件 的 权限 许可 。 一 旦 通过 检 
查 ， 内 核 调用 加 载 程序 ， 以 开始 运行 这 个 程序 。 虽 然 加 载 器 不 必 加 载 程 序 文件 内 容 到 物理 内 


+ F, 但 是 它 至 少 设置 从 程序 到 虚拟 内 存 的 映射 。 


Linux 没有 单独 程序 来 加 载 新 程序 。 相 反 ，Linux 维护 一 个 可 能 加 载 程序 函数 表 ; 在 执 
行 系统 调用 exec() 时 ， 它 让 表 内 的 每 个 函数 有 机 会 试图 加 载 给 定 文件 。 这 个 加 载 表 的 最 初 
原因 是 ， 在 内 核发 布 1.0 和 1.2 之 间 ，Linux 二 进 制 文件 的 标准 格式 发 生 了 改变 。 较 老 Linux 
内 核 采用 二 进 制 文件 格式 a.out ， 即 较 旧 UNIX 系统 常用 的 相对 简单 格式 。 较 新 Linux 系统 
采用 更 现代 的 格式 ELF， 现 在 已 被 大 多 数 现代 UNIX 支持 。ELF 比 a.out 有 若干 优点 ， 包 
括 灵 活性 和 可 扩展 性 。 新 的 部 分 可 以 增加 到 ELF 二 进 制 文 件 (如 增加 额外 调试 信息 )， 而 不 
会 导致 加 载 程序 变 得 困惑 。 通 过 允许 注册 多 个 加 载 程序 ，Linux 可 以 在 一 个 运行 系统 中 ， 轻 
松 支 持 ELF 和 a.out 的 两 个 文件 格式 。 

16.6.3.1 节 和 16.6.3.2 节 专 门 讨论 ELF 格式 二 进 制 的 加 载 与 运行 。 加 载 二 进 制 a.out 的 
程序 更 加 简单 ， 但 操作 类 似 。 
16.6.3.1 程序 映射 到 内 存 

在 Linux 下 ,二进制 加 载 器 不 会 将 二 进 制 文件 加 载 到 物理 内 存 。 相 反 ， 二 进 制 文件 的 页 
面 被 映射 到 虚拟 内 存 的 区 域 。 只 有 当 程 序 试图 访问 给 定 页 面 时 ， 页 面 错误 才 会 导致 采用 按 需 
调 页 ， 以 加 载 页 面 到 物理 内 存 。 

内 核 的 二 进 制 加 载 器 负责 设置 初始 内 存 映射 。ELF 格式 的 二 进 制 文件 包括 一 个 头 部 和 多 
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个 页 面 对 齐 部 分 。ELF 加 载 器 这 样 工作 : 读 取 头 部 ， 映 射 文件 部 分 到 虚拟 内 存 的 不 同 区 域 。 

图 16-6 显示 了 ，ELF 加 载 器 设置 的 内 存 区 域 的 典型 布局 。 地 址 空间 一 端的 保留 区 域 是 
内 核 ， 具 有 自己 特权 的 虚拟 内 存 区 域 不 能 被 用 户 模式 程序 访问 。 虚 拟 内 存 的 其 余部 分 可 用 [721] 
于 应 用 程序 ， 它 们 可 以 采用 内 核 的 内 存 映射 函数 来 创建 区 域 ， 以 用 于 映射 文件 或 应 用 程序 
数据 。 


mee 





ul 


图 16-6 ELF 程序 的 内 存 布局 


加 载 器 的 工作 是 ， 设 置 初始 内 存 映 射 ， 以 便 允 许 执行 程序 启动 。 需 要 初始 化 的 区 域 包 
括 : 堆栈 、 程 序 文本 与 数据 的 区 域 。 

堆栈 在 用 户 模 式 虚 拟 内 存 的 顶部 上 创建 ; 它 向 地 址 减 小 的 方向 发 展 。 它 包括 : 系统 调用 
exec() 的 程序 参数 及 环境 变量 副本 。 其 他 区 域 在 虚拟 内 存 的 底 端 附近 创建 。 包 含 程序 文本 
或 只 读数 据 的 二 进 制 文件 部 分 ， 作 为 写 保护 区 域 被 映射 到 内 存 。 接 着 ， 可 写 人 的 初始 化 数据 
被 映射 ;， 然后， 任何 未 初始 化 的 数据 被 映射 到 私有 的 按 需 填 零 区 域 。 

这 些 固 定 大 小 区 域 之 上 就 是 变 长 区 域 ， 程 序 根据 需要 可 以 扩展 变 长 区 域 以 保存 运行 时 的 
分 配 数据 。 每 个 进程 都 有 一 个 指针 brk， 以 指向 这 个 数据 区 域 的 当前 扩展 ; 进程 通过 系统 调 
用 sbrk() 可 以 扩大 或 者 缩小 它们 的 brk 区 域 。 

一 旦 这 些 映射 建立 起 来 ， 加 载 器 利用 ELF 文件 头 部 的 指定 起 始 地 址 来 初始 化 进程 的 程 
序 计 数 寄存 器 ， 之 后 进程 可 被 调度 。 
16.6.3.2 静态 链接 与 动态 链接 

一 旦 程序 加 载 并 开始 运行 ， 二 进 制 文件 的 所 有 必要 内 容 可 被 加 载 到 进程 的 虚拟 地 址 空 “[722 
间 。 然 而 ， 大 多 数 程序 也 需要 运行 系统 库 的 函数 ， 这 些 库 函 数 也 应 加 载 。 在 最 简单 的 情况 
下 ， 必 要 的 库 函 数 直接 嵌 到 程序 的 可 执行 二 进 制 文件 。 这 种 程序 静态 地 链接 到 库 ， 而 静态 链 
接 的 可 执行 文件 一 旦 加 载 ， 就 可 以 开始 运行 。 

静态 链接 的 主要 缺点 是 ， 每 个 生成 的 程序 都 必须 包含 完全 相同 的 公共 系统 库 函 数 的 副 
本 。 从 物理 内 存 与 磁盘 空间 的 使 用 而 言 ， 只 加 载 系统 库 一 次 到 内 存 ， 就 更 加 高 效 。 动 态 链 接 
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允许 只 加 载 一 次 。 

Linux 采用 特殊 链接 库 ， 实 现 用 户 模 式 的 动态 链接 。 每 个 动态 链接 程序 都 包含 一 个 小 
的 静态 链接 函数 ; 当 程 序 启 动 时 它 被 调用 。 这 个 静态 函数 只 是 映射 链接 库 到 内 存 ， 并 运行 
函数 包含 的 代码 。 链 接 库 确定 程序 需要 的 动态 库 和 这 些 库 的 所 需 变量 和 函数 名 称 (通过 读 
取 ELF 二 进 制 文件 的 区 段 信息 )。 然 后 ， 它 映射 这 些 库 到 虚拟 内 存 ， 并 且 解 析 这 些 库 符 号 
的 引用 。 这 些 共享 库 被 映射 到 内 存 的 何 处 并 不 重要 : 它们 被 编译 成 位 置 无 关 代 码 ( Position- 
Independent Code，PIC)， 以 便 从 任何 内 存 地 址 都 能 运行 。 


16.7 文件 系统 


Linux 保留 了 UNIX 的 标准 文件 系统 模型 。 在 UNIX 中 ， 文件 不 必 存 储 在 磁盘 上 ， 或 者 
从 远程 服务 器 上 通过 网 络 获取 。 实 际 上 ，UNIX 文件 可 以 是 能 够 处 理 数据 流 的 输入 和 输出 的 
任何 实体 。 设备 驱 动 器 可 以 作为 文件 ， 进 程 间 通信 信道 或 网 络 连 接 对 用 户 而 言 看 起 来 也 像 
Hh 

Linux 内 核 ， 通 过 隐藏 任何 单个 文件 类 型 的 实现 细节 在 虚拟 文件 系统 COVES) 的 软件 层 
之 后 ， 处 理 所 有 类 型 的 文件 。 这 里 ， 我 们 首先 概述 虚拟 文件 系统 ， 然 后 讨论 标准 的 Linux 文 
件 系 统 ， 即 ext3。 


16.7.1 虚拟 文件 系统 


Linux 虚拟 文件 系统 ( VFS) 是 围绕 面向 对 象 原则 来 设计 的 。 它 有 两 个 组 件 : 一 组 定义 ， 
以 指定 文件 系统 对 象 看 起 来 像 什么 ; 一 层 软 件 ， 以 操作 这 些 对 象 。VFS 定义 了 4 种 主要 对 象 
类 型 ; 

e inode 对 象 (inode object) 表示 单个 文件 。 

© 文件 对 象 (file object) 表示 打开 的 文件 。 

e 超级 块 对 象 (superblock object) 表示 整个 文件 系统 。 

o dentry 对 象 (dentry object) 表示 单个 目录 条 目 。 

对 于 以 上 4 个 对 象 类 型 的 每 种 ，VFS 定义 了 一 组 操作 。 这 些 类 型 的 每 个 对 象 都 包括 一 
个 函数 表 的 指针 。 这 个 函数 表 列 出 了 实现 对 象 定义 操作 的 实际 函数 地 址 。 例 如 ， 一 些 文件 对 
象 操作 的 缩写 API 包括 : 

e int open(...) 一 一 打开 文件 。 

e ssize_t read(...) 一 一 读 取 文件 。 

e ssize_t write(...) 一 一 写 到 文件 。 

e int mmap(...) 一 一 内 存 映射 文件 。 
文件 对 象 的 完整 定义 由 文件 /usr/include/linux/fs.h 的 struct file_operations 来 指 
定 。( 特 定 文件 类 型 的 ) 文件 对 象 的 实现 ， 要 求实 现 文件 对 象 定义 中 指定 的 每 个 函数 。 

VES 软件 层 通 过 调用 对 和 象 函 数 表 的 适当 函数 ， 可 以 对 文件 系统 对 象 执行 操作 ， 而 无 需 
提前 明确 知道 需要 处 理 什么 类 型 的 对 象 。VFS 不 知道 或 者 不 关心 ，inode 是 否 代表 网 络 文件 、 
磁盘 文件 、 网 络 套 接 字 或 目录 文件 。 文 件 操作 read() 的 适当 函数 总 是 位 于 函数 表 的 同一 位 
置 ，VFS 软件 层 在 调用 这 个 函数 时 并 不 关心 如 何 实际 读 取 数 据 。 

inode 和 文件 的 对 象 是 用 于 访问 文件 的 机 制 。inode 对 象 是 包含 磁盘 块 指 针 的 数据 结构 ， 
这 些 磁盘 块 包括 实际 的 文件 内 容 ; 文件 对 象 (file object) 表示 打开 文件 数据 的 访问 位 置 。 进 
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程 在 没有 首先 获得 指向 inode 的 文件 对 象 时 ， 不 能 访问 inode 的 内 容 。 文 件 对 象 跟踪 进程 当 
前 读 写 文件 的 位 置 ， 跟 踪 顺 序 文 件 的 1O。 它 还 要 记 住 打开 文件 时 的 请 求 (例如 ， 读 取 或 写 
A); 并 且 跟 踪 进 程 活 动 ， 如 有 必要 执行 自 适应 的 预 读 ， 即 在 进程 发 出 请 求 之 前 读 取 文件 数 
据 到 内 存 以 便 改善 性 能 。 

文件 对 象 通常 属于 单个 进程 ， 但 是 inode 对 象 则 不 然 。 一 个 打开 文件 的 每 个 实例 都 有 一 
个 文件 对 象 ， 但 总 是 只 有 一 个 inode 对 象 。 即 使 文件 不 再 由 任何 进程 使 用 ， 它 的 inode 对 象 
可 能 仍 由 VES 缓存 以 便 提高 性 能 (如果 这 个 文件 在 不 远 的 将 来 被 再 次 使 用 )。 所 有 缓存 的 文 
件数 据 链接 到 文件 inode 对 象 的 一 个 列表 。 这 个 inode 还 保留 了 每 个 标准 文件 信息 ， 如 所 有 
者 、 大 小 和 最 近 修 改 时 间 等 。 

目录 文件 与 其 他 文件 的 处 理 略 有 不 同 。UNIX 编程 接口 定义 了 一 些 目 录 操 作 ， 如 创建 、 
删除 和 重 命名 目录 内 的 文件 。 这 些 目录 操作 的 系统 调用 不 要 求 用 户 打 开 相 关 文 件 ， 这 不 像 读 
写 数 据 的 情况 。 所 以 ，VFS 是 在 inode 对 象 而 不 是 在 文件 对 象 中 ， 定 义 这 些 目录 操作 。 

超级 块 对 象 表示 构成 一 个 独立 文件 系统 的 一 组 相关 文件 。 操 作 系统 内 核 为 按 文件 系统 安 
装 的 每 个 磁盘 设备 或 当前 连接 的 每 个 网 络 文件 系统 ， 维 护 单个 超级 块 对 象 。 超 级 块 对 象 的 主 
要 作用 是 提供 inode 访问 。VFS 通过 唯一 的 文件 系统 /inode 号 对 ， 来 确定 每 个 inode; 它 通 
过 询问 超级 块 对 象 ， 找 到 对 应 于 特定 inode 号 的 inode， 以 便 返 回 具有 这 个 号 码 的 inode。 

最 后 ，dentry 对 象 表示 目录 条 目 ， 它 可 能 包括 文件 路 径 名 中 的 目录 (如 usr) 和 实际 
文件 (如 stdio.h) 的 名 称 。 例 如 ,文件 /usr/include/stdio.h 包含 目 录 条 目 /、usr、 
include 和 stdio.h。 这 些 值 都 由 由 单独 的 dentry 对 象 来 表示 。 

作为 如 何 使 用 目录 对 象 的 一 个 例子 ， 考 虑 这 样 一 种 情况 ， 一 个 进程 希望 通过 编辑 器 来 
打开 路 径 名 为 /usr/include/stdio.h 的 文件 。 因 为 Linux 将 目录 名 称 作 为 文件 ， 翻 译 
这 个 路 径 要 求 首先 获取 根 (/) 的 inode。 然 后 ， 操 作 系 统 必须 读 取 这 个 文件 ， 以 得 到 文件 
include 的 inode。 它 必须 继续 这 个 过 程 ， 直 到 获得 文件 stdio.h 的 inode。 因 为 路 径 名 称 
转换 可 能 是 个 耗 时 任务 ，Linux 维护 目录 对 象 的 一 个 缓存 ， 可 以 在 转换 路 径 名 称 时 查阅 。 从 
目录 缓存 获得 inode 比 读 取 磁盘 文件 要 快 得 多 。 


16.7.2 Linux ext3 文件 系统 


Linux 采用 的 标准 磁盘 文件 系统 ， 由 于 历史 原因 ， 称 为 ext3。Linux 最 初 采用 Minix 兼 
容 文件 系统 来 编程 ， 以 方便 与 Minix 开发 系统 交换 数据 ， 但 是 这 种 文件 系统 严重 受 限 于 14 
个 字符 的 文件 名 称 限 制 和 64MB 的 最 大 文件 系统 大 小 。Minix 文件 系统 被 新 的 文件 系统 取 
代 ， 这 个 新 系统 称 为 扩展 文件 系统 (extended file system，extfs)。 后 来 重新 设计 以 便 提 高 
性 能 和 可 扩展 性 ， 并 且 增 加 一 些 缺 少 的 功能 ， 导 致 第 二 扩展 文件 系统 (second extended file 
system ，ext2 )。 进 一 步 的 开发 增加 了 日 志 功 能 ， 这 个 系统 重 命名 为 第 三 扩展 文件 系统 (third 
extended file system, ext3 )。Linux 内 核 开发 人 员 正 在 为 ext3 增加 现代 文件 系统 功能 ， 如 扩 
展区 。 这 个 新 的 文件 系统 称 为 第 四 扩展 文件 系统 (fourth extended file system，ext4 )。 然 而 ， 
本 节 的 其 余部 分 讨论 ext3 ， 因 为 它 仍然 是 部 署 最 多 的 Linux 文件 系统 。 大 多 数 讨 论 同 样 适用 
于 ext4。 

Linux ext3 与 BSD FFS ( Fast File System, he (FASE, BW A.7.7 节 ) 具有 许多 共 
同 之 处 。 它 使 用 类 似 机 制 ， 定 位 属于 特定 文件 的 数据 块 ， 存 储 数据 块 指针 到 间接 块 ， 而 整个 
文件 系统 使 用 最 多 三 层 间接 。 与 FFS 一 样 ， 目 录 文 件 如 同 普通 文件 一 样 存储 在 磁盘 上 ， 尽 
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管 它们 的 内 容 可 以 有 不 同 的 解释 。 目 录 文 件 的 每 个 块 都 包含 条 目 链 表 。 相 应 地 ， 每 个 条 目 包 
含 了 条 目 长 度 、 文 件 名 称 和 条 目 引用 inode 的 inode 号 。 

ext3 与 FFS 之 间 的 主要 区 别 在 于 磁盘 分 配 策略 。 在 FFS 中 ， 磁 盘 按 SKB 块 分 配给 文 
件 。 这 些 块 细 分 为 1KB 片段 ， 以 存储 小 文件 或 文件 末尾 的 未 满 填充 块 。 相 比 之 下 ，ext3 i 
本 没有 使 用 片段 ， 而 采用 更 小 单位 执行 所 有 分 配 。ext3 默认 块 大 小 以 文件 系统 总 的 大 小 的 函 
数 而 变化 。 支 持 的 块 大 小 为 1、2、4 和 8KB。 

为 了 提高 性 能 ， 操 作 系 统 必 须 尽 可 能 地 试图 通过 聚集 物理 上 相 邻 IO 请 求 ， 按 大 块 来 执 
行 /JO。 聚 集 减低 了 ， 由 设备 驱动 程序 、 磁 盘 和 磁盘 控制 器 硬件 引起 的 每 次 请 求 开销 。 块 大 
小 的 IO 请 求 太 小 以 至 不 能 维护 良好 的 性 能 ， 所 以 ext3 使 用 的 分 配 策略 旨 在 放置 文件 的 逻辑 
相 邻 块 到 磁盘 的 物理 相 邻 块 ， 这 样 它 可 以 提交 多 个 磁盘 块 的 IO 请 求 ， 来 作为 单个 操作 。 

ext3 分 配 策略 如 下 : 与 FFS 一 样 ，ext3 文件 系统 被 划分 成 多 个 段 。 对 于 ext3 ， 这 些 称 
为 块 组 (block group). FFS 采用 类 似 概念 ， 即 柱 面 组 (cylinder group)， 也 就 是 说 ， 同 属 物 
理 磁 盘 的 单个 柱 面 的 组 。( 请 注意 ， 现 代 磁 盘 驱 动 技术 根据 不 同 密度 来 组 织 磁盘 扇 区 ， 因 此 
不 同 柱 面 有 不 同 大 小 ， 取 决 于 磁头 与 磁盘 中 心 的 距离 。 所 以 固定 大 小 的 柱 面 组 不 必 对 应 于 磁 
盘 结 构 。) 

当 分 配 文件 时 ，ext3 必须 首先 为 这 个 文件 选择 块 组 (block group)。 对 于 数据 块 ， 它 试 
图 分 配 文件 到 与 文件 inode 相同 的 块 组 。 对 于 inode 分 配 ， 它 选择 块 组 ， 其 中 文件 的 父 目 录 
驻 留 在 非 目 录 文 件 中 。 目 录 文 件 并 不 放 在 一 起 ， 而 是 分 散 到 整个 可 用 块 组 。 这 些 策 略 旨 在 ， 
不 仅 在 同一 块 组 中 保存 相关 信息 ， 而 且 分 散 磁 盘 负荷 到 磁盘 块 组 ， 以 减少 任何 区 域 的 磁盘 
碎片 。 

在 一 个 块 组 内 ，ext3 尽 可 能 地 试图 保持 分 配 的 物理 连续 ， 尽 可 能 地 减少 碎片 。 它 维护 块 
组 的 所 有 空 块 的 位 图 。 当 为 新 文件 分 配 第 一 个 块 时 ， 它 从 块 组 的 开始 ， 搜 索 空 闲 块 。 当 扩展 
文件 时 ， 它 从 最 近 分 配给 文件 的 块 位 置 继续 搜索 。 这 个 搜索 分 为 两 个 执行 阶段 。 首 先 ，ext3 
在 位 图 中 搜索 一 个 完整 的 空闲 字 节 ; 如果 没有 找到 ， 它 会 查找 任何 空闲 位 。 搜 索 空闲 字 节 和 旨 
在 尽 可 能 地 按 8 块 为 单位 来 分 配 磁盘 空间 。 

一 旦 找到 空闲 块 ， 搜 索 向 后 扩展 ， 直 到 遇 到 分 配 的 块 。 当 在 位 图 中 找到 一 个 空闲 字 
节 时 ， 这 种 向 后 扩展 阻止 ext3 ， 在 先前 非 零 字 节 的 最 近 分 配 块 与 找到 的 零 字 节 之 前 留 下 
一 个 孔 。 一 旦 位 或 字 节 的 搜索 找到 需要 分 配 的 块 ，ext3 向 前 扩大 分 配 多 达 8 块 ， 并 为 文 
件 预 先 分 配 这 些 块 。 这 个 预先 分 配 有 助 于 减少 因 交 错 写 入 不 同文 件 而 造成 的 碎片 ， 也 通 
过 同时 分 配 多 个 块 降 低 磁盘 的 CPU 代价 。 当 文件 关闭 时 ,预先 分 配 的 块 返回 到 空闲 空间 
位 图 。 

16-7 说 明了 分 配 策略 。 每 行 表 示 分 配 位 图 中 的 设置 和 未 设置 的 序列 ， 显 示 磁 盘 的 使 
用 和 空闲 块 。 在 第 一 种 情况 下 ， 如 果 在 开始 探索 的 附近 我 们 可 以 找到 足够 多 的 空闲 块 ， 则 
无 论 它们 多 么 分 散 ， 我 们 也 会 分 配 它们 。 由 于 这 些 块 靠 在 一 起 ， 而 且 无 需 任 何 磁盘 寻 道 也 
能 一 起 读 取 ， 磁 盘 碎片 得 到 部 分 补偿 。 此 外 ,一 旦 磁盘 上 的 大 块 空 闪 区 域 不 足 ， 将 磁盘 碎 
片 全 部 分 配 到 一 个 文件 比 将 它们 分 配 到 各 个 文件 要 好 得 多 。 在 第 二 种 情况 下 ， 由 于 无 法 立 
即 在 附近 找到 空闲 块 ， 所 以 查找 位 图 中 的 整个 空闲 字 节 。 如 果 我 们 把 这 个 字 节 作为 一 个 整 
体 分 配 ， 则 在 这 个 分 配 与 先前 分 配 之 间 最 终 创 建 空闲 空间 的 一 个 碎片 区 域 。 因 此 ， 在 分 配 
之 前 ,我们 退 后 以 便 刷 新 这 个 分 配 和 之 前 的 分 配 ; 然后 我 们 向 前 分 配 ， 以 满足 8 块 的 默认 
分 配 。 
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16.7.3 卓志 


ext3 文件 系统 支持 称 为 日 志 (journaling) 的 流行 功能 ， 而 文件 系统 的 修改 按 顺序 写 到 日 
志 。 执 行 某 个 特定 任务 的 一 组 操作 ， 称 为 事务 (transaction), 一旦 事务 写 到 日 志 ， 它 就 被 认 
为 已 被 提交 。 同 时 ， 事 务 相 关 的 日 志 条 目 重播 到 实际 文件 系统 结构 。 随 着 更 改 ， 一 个 指针 会 
被 更 新 ， 以 指出 哪些 动作 已 经 完成 和 哪些 动作 仍然 尚未 完成 。 当 整个 提交 事务 已 完成 时 ， 它 
从 日 志 中 会 被 删除 。 日 志 ， 其 实 是 个 循环 缓冲 区 ， 可 能 在 文件 系统 的 单独 部 分 ， 或 者 甚至 可 
能 在 单独 的 磁盘 上 。 拥 有 单独 读 写 磁头 ， 可 以 减少 磁头 竞争 和 寻 道 时 间 ， 更 为 有 效 ， 但 也 更 
为 复杂 。 

如 果 系 统 崩 溃 ， 有 些 事务 可 能 仍 在 日 志 中 。 这 些 事务 从 未 完成 ， 尽 管 它们 已 由 操作 系 
统 提交 ， 所 以 当 系统 恢复 后 它们 必须 完成 。 事 务 可 以 从 指针 处 执行 ， 直 到 工作 完成 ; 并 且 文 
件 系统 结构 保持 一 致 。 当 事务 中 止 时 ， 发 生 了 唯一 问题 ， 也 就 是 说 ， 在 系统 般 溃 前 它 没有 提 
交 。 应 用 于 文件 系统 的 这 些 事务 的 任何 变更 必须 撤销 ， 再 次 保持 文件 系统 的 一 致 性 。 这 个 恢 
复 是 前 溃 后 所 需要 的 ， 以 便 消 除 一 致 性 检查 的 所 有 问题 。 

日 志文 件 系 统 比 非 日 志文 件 系统 可 能 更 快 地 执行 某 些 操作 ， 因 为 当 它 们 应 用 于 内 存 中 的 
日 志 而 非 直接 针对 磁盘 数据 结构 ， 更 新 进行 得 更 快 。 这 种 改进 的 原因 在 于 ， 顺 序 1/0 相对 随 
机 VO 的 性 能 优势 。 针 对 文件 系统 的 高 成 本 的 同步 随机 写 入 ， 转 成 针对 文件 系统 日 志 的 更 低 
成 本 的 同步 顺序 写 入 。 转 而 ， 这 些 更 改 通过 随机 写 入 到 适当 结构 ,会 被 异步 重播 。 最 终结 果 
是 ， 明 显 提升 了 文件 系统 的 面向 元 数据 的 操作 ， 如 文件 创建 和 删除 。 由 于 性 能 提高 ，ext3 可 
以 配 成 只 记录 (journal) 元 数据 而 非 文件 数据 。 


16.7.4 Linux 进程 文件 系统 


Linux VFS 的 灵活 性 使 我 们 能 够 实现 这 样 一 个 文件 系统 ， 它 根本 不 用 永久 存储 数据 ， 而 
是 提供 其 他 功能 的 接口 。Linux 进程 文件 系统 (process file system) 称 为 /proc 文件 系统 ， 
是 文件 系统 的 示例 ， 它 的 内 容 实际 上 并 未 存储 在 任何 地 方 ， 而 是 根据 用 户 文件 IO 请 求 来 按 
需 计 算 。 

文件 系统 /proc 并 不 是 Linux 特有 的 。SVR4 UNIX 引入 文件 系统 /proc， 以 作为 内 核 
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进程 调试 支持 的 一 个 有 效 接口 : 文件 系统 的 每 个 子 目 录 对 应 的 不 是 磁盘 上 的 某 一 目录 ， 而 是 
当前 系统 运行 的 进程 。 文 件 系统 列表 显示 的 是 每 个 进程 一 个 目录 ， 其 目录 名 称 为 进程 的 唯一 
进程 标识 符 (PID) 的 ASCII 十 进 制 表示 。 

Linux 实现 了 这 个 文件 系统 /proc， 而 且 通 过 在 文件 系统 的 根 目录 下 增加 一 些 额 外 的 目 
录 和 文本 文件 进行 了 很 大 扩展 。 这 些 新 的 条 目 对 应 有 关内 核 和 加 载 驱 动 程序 的 各 种 统计 信 
息 。 文 件 系 统 /proc 提供 了 一 种 方式 ， 以 按 纯 文 本 文件 形式 来 访问 这 些 信息 ; 标准 UNIX 
用 户 环境 提供 强大 工具 来 处 理 这 些 文件 。 例 如 ， 过 去 ,传统 UNIX 命令 ps 实现 为 特权 进程 ， 
以 从 内 核 虚 拟 内 存 中 直接 读 取 进程 状态 ， 从 而 列 出 所 有 正在 运行 进程 的 状态 。 在 Linux F, 
这 个 命令 实施 为 一 个 完全 无 特权 的 程序 ， 以 简单 解析 并 格式 化 来 自 /proc 的 信息 。 

文件 系统 /proc 必须 实现 两 件 事情 : 目录 结构 和 文件 内 容 。 因 为 UNIX 文件 系统 被 定 
义 为 一 组 文件 和 目录 的 inode， 它 们 通过 inode 号 来 标识 ， 所 以 文件 系统 /proc 必须 为 每 个 
目录 和 关联 文件 定义 一 个 唯一 的 、 持 久 的 inode 号 。 一 旦 存在 这 样 的 映射 ， 当 用 户 试 图 从 
特定 文件 inode 中 读 取 内 容 ， 或 者 在 特殊 目录 inode 中 执行 查找 时 ， 文 件 系统 可 以 利用 这 个 
inode 号 ， 来 识别 需要 执行 什么 操作 。 当 从 这 些 文件 之 一 读 取 数 据 时 ， 文 件 系 统 /proc 会 收 
集 适 当 信息 ， 格 式 化 它们 为 文本 形式 ， 并 存放 结果 到 请 求 进程 的 读 缓冲 区 。 

从 inode 号 到 信息 类 型 的 映射 ， 将 inode 号 分 为 两 个 字段 。 在 Linux 中 ，PID 为 16 位 ， 
而 inode 号 为 32 位 。inode 号 的 高 16 位 解释 为 PID， 其 余 位 定义 请 求 什么 类 型 的 进程 信息 。 

PID 为 零 是 无 效 的 ， 因 此 inode SHS PID 字段 意味 着 : 这 个 inode 包括 全 局 的 、 而 非 
特定 进程 的 信息 。 在 /proc 中 存在 各 种 全 局 文件 ， 用 于 报告 信息 ， 如 内 核 版 本 、 空 闲 内 存 、 
性 能 统计 和 正在 运行 的 驱动 程序 等 。 

这 个 范围 的 所 有 inode 号 并 不 是 被 保留 的 。 内 核 可 以 动态 分 配 新 /proc 的 inode 的 映 
射 ， 以 便 维护 已 分 配 inode 号 的 位 图 。 它 还 维护 文件 系统 /proc 的 已 注册 全 局 条 目的 树 形 数 
据 结构 。 每 个 条 目 包 括 文件 的 inode 号 、 文 件 名 称 、 访 问 权 限 以 及 用 于 生成 文件 内 容 的 特殊 
函数 。 了 驱动 程序 可 以 随时 在 这 个 树 中 注册 和 注销 条 目 ; 这 个 树 的 特殊 部 分 ， 出 现在 /proc/ 
sys 目录 下 ， 保 留用 于 内 核 变量 。 人 允许 读 写 这 些 变量 的 一 组 常用 处 理 程序 ， 可 以 管理 这 个 树 
的 文件 ， 因 此 系统 管理 员 通 过 写 出 以 ASCII 十 进 制 的 所 需 新 值 到 适当 文件 ， 可 以 简单 地 调 
整 内 核 参数 的 值 。 

为 允许 应 用 程序 有 效 访问 这 些 变 量 ， 子 树 /proc/sys 的 使 用 可 以 通过 特殊 的 系统 调用 
sysct1() ， 以 便 按 二 进 制 而 非 文 本 来 读 写 同样 变量 ， 而 没有 文件 系统 的 开销 。sysctl1() 不 
是 额外 的 函数 ; 它 简 单 读 取 动 态 条 目 树 /proc， 以 识别 应 用 程序 引用 的 变量 。 


16.8 输入 与 输出 


对 于 用 户 来 说 ，Linux 的 IO 系统 看 起 来 很 像 任何 UNIX 系统 的 110。 也 就 是 说 ， 所 有 
的 设备 驱动 程序 尽 可 能 地 显示 为 普通 文件 。 用 户 可 以 打开 设备 的 访问 通道 ， 就 如 同 打开 任何 
其 他 文件 ， 也 就 是 说 ,设备 在 文件 系统 里 可 以 显示 为 对 象 。 系 统管 理 员 可 以 在 文件 系统 里 创 
建 特殊 文件 ， 以 包含 特定 设备 驱动 程序 的 引用 ; 打开 这 种 文件 的 用 户 能 够 读 写 引 用 设备 。 通 
过 使 用 普通 的 文件 保护 系统 ， 这 决定 了 谁 可 以 访问 哪个 文件 ， 管 理 员 可 以 设置 每 个 设备 的 访 
问 权 限 。 

Linux 将 所 有 设备 分 为 三 类 : 块 设 备 、 字 符 设备 和 网 络 设备 。 图 16-8 说 明了 设备 驱动 程 
序 系统 的 总 体 结构 。 
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图 16-8 设备 驱动 程序 的 块 结构 

块 设备 ( block device) 包括 支持 完全 独立 的 、 固 定 大 小 数据 块 的 所 有 设备 的 随机 访问 ， 
包括 硬盘 和 软盘 、CD-ROM 和 Blu-ray 光盘 以 及 闪存 。 块 设备 通常 用 于 存储 文件 系统 ， 但 是 
直接 访问 块 设 备 也 是 允许 的 ， 这 样 程序 可 以 创建 和 修复 设备 包含 的 文件 系统 。 应 用 程序 也 可 
以 直接 访问 这 些 块 设备 ， 如 果 愿 意 。 例 如 ， 数 据 库 应 用 程序 可 能 更 喜欢 执行 它 自 己 的 磁盘 数 
据 的 布局 调整 ， 而 不 是 使 用 通用 文件 系统 。 

字符 设备 ( character device) 包括 大 多 数 其 他 设备 ， 如 鼠标 和 键盘 。 块 设备 与 字符 设备 
之 间 的 根本 区 别 是 随机 访问 ; 块 设备 是 随机 访问 的 ， 而 字符 设备 是 串 行 访问 的 。 例 如 ， 对 于 
DVD， 可 以 支持 定位 到 文件 的 特定 位 置 ; 但 是 ， 对 于 定点 设备 (诸如 鼠标 ) 就 没有 意义 。 

网 络 设备 (network device) 有 别 于 块 设 备 和 字符 设备 。 用 户 不 能 直接 传输 数据 到 网 络 设 
备 。 相 反 ， 他 们 必须 通过 打开 到 内 核 网 络 子 系统 的 连接 来 间接 通信 。16.10 节 单 独 讨 论 网 络 
设备 接口 。 


16.8.1 块 设备 


块 设备 为 系统 的 所 有 磁盘 设备 提供 了 主要 接口 。 磁 盘 性 能 尤其 重要 ， 块 设备 系统 必须 提 
供 功 能 ， 以 确保 磁盘 访问 尽 可 能 快 。 这 种 功能 通过 IO 操作 的 调度 来 实现 。 

在 块 设备 的 上 下 文中 ， 块 代表 内 核 执行 VO 的 单元 。 当 块 被 读 到 内 存 时 ， 它 被 保存 在 组 
存 区 中 。 请 求 管理 程序 (request manager) 为 软件 层 ， 用 于 管理 块 设备 驱动 程序 的 缓冲 区 内 
容 的 读 与 写 。 

每 个 块 设 备 驱动 程序 都 有 单独 的 请 求 列表 。 传 统 上 ， 这 些 请 求 的 调度 采用 单 向 电梯 
(C-SCAN) 算法 ， 以 利用 列表 插入 或 移 除 请 求 。 这 些 请 求 列 表 按 起 始 扇 区 号 码 的 递增 排序 来 
维护 。 当 请 求 被 块 设备 驱动 程序 接受 处 理 时 ， 它 不 会 从 列表 中 删除 ; 只 有 在 IO 完成 之 后 ， 
它 才 会 被 删除 ; 这 时 ， 驱 动 程序 仍然 继续 列表 的 下 个 请 求 ， 即 使 新 的 请 求 已 在 活动 请 求 之 前 
被 插入 列表 。 随 着 新 的 IO 请 求 的 产生 ， 请 求 管理 程序 试图 合并 列表 中 的 请 求 。 

Linux 内 核 2.6 版 引入 了 新 的 1/O 调度 算法 。 虽 然 简单 的 电梯 算法 仍然 可 用 ， 默 认 的 IO 
调度 程序 现在 是 完全 公平 排队 (Completely Fair Queueing, CFQ) 调度 程序 。CFQ LO 调度 
程序 根本 不 同 于 电梯 算法 。CFQ 不 是 排序 列表 中 的 请 求 ， 而 是 维护 一 组 列表 ; 在 默认 情况 下 ， 
每 个 进程 都 有 一 个 列表 。 进 程 的 请 求 加 到 进程 的 列表 。 例 如 ， 如 果 两 个 进程 正在 发 出 IO 请 
RK, CFO 会 维护 两 个 单独 的 请 求 列表 ， 每 个 进程 一 个 。 这 些 列表 采用 C-SCAN 算法 来 维护 。 

CFQ 也 为 列表 提供 不 同 服务 。 当 传统 C-SCAN 算法 对 于 特定 进程 无 效 时 ，CFQ 采用 轮 
转 方式 来 处 理 每 个 进程 的 列表 。 它 从 每 个 列表 中 提取 可 配置 数量 (默认 情况 下 为 4 个 ) 的 请 
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求 ， 然 后 再 向 下 移 。 这 种 方法 在 进程 级 别 上 是 公平 的 ， 每 个 进程 都 得 到 相同 比例 的 磁盘 带 
宽 。 这 个 结果 有 利于 IO 延迟 很 重要 的 交互 式 工作 负载 。 然 而 ， 实 际 上 ，CFQ 对 于 大 多 数 工 
作 负 载 表 现 良好 。 


16.8.2 ”字符 设备 


字符 设备 驱动 程序 几乎 可 以 是 任何 设备 驱动 程序 ， 没有 提供 固定 数据 块 的 随机 访问 。 注 
册 到 Linux 内 核 的 任何 字符 设备 驱动 程序 ， 也 必须 注册 一 组 函数 ， 来 实现 驱动 程序 可 以 处 理 
的 文件 IO 操作 。 内 核对 字符 设备 的 文件 读 写 请 求 几乎 没有 预 处 理 。 它 只 是 简单 传递 请 求 到 
有 关 设 备 ， 而 让 设备 处 理 请 求 。 

这 个 规则 的 主要 例外 是 ， 实 现 终端 设备 的 字符 设备 驱动 程序 的 特殊 子 集 。 内 核 通过 一 组 
结构 tty_struct， 来 维护 这 些 驱动 程序 的 标准 接口 。 每 个 结构 对 终端 设备 数据 流 提 供 缓冲 
与 流 控制 ; 并 传递 这 些 数据 到 线路 规程 。 

线路 规程 (line discipline) 是 用 于 终端 设备 信息 的 解释 程序 。 最 普通 线路 规程 是 tty 规 
程 ， 它 将 终端 数据 流 挂 到 用 户 运行 进程 的 标准 输入 与 输出 流 ， 以 允许 这 些 进 程 与 终端 设备 直 
接 通 信 。 当 多 个 进程 同时 运行 ， 这 个 工作 变 得 复杂 ; 随 着 进程 被 用 户 唤 醒 或 挂 起 ，tty 线路 
规程 负责 与 终端 相连 的 各 个 进程 的 终端 输入 与 输出 的 连接 和 分 离 。 

还 实现 了 其 他 线路 规程 ， 它 们 与 用 户 进程 IO 没有 任何 关系 。PPP Al SLIP 网 络 协议 ， 
通过 终端 设备 (如 串 行 线路 ) 的 网 络 连接 进行 编码 。 这 些 协议 在 Linux 下 实现 为 驱动 程序 ， 
一 端 对 于 终端 设备 表现 为 线路 规程 ， 另 一 端 对 于 网 络 系统 表现 为 网 络 设备 驱动 程序 。 当 终端 
设备 启用 一 个 线路 规程 时 ， 终 端 上 出 现 的 任何 数据 会 直接 路 由 到 适当 的 网 络 设备 驱动 程序 。 


16.9 进程 间 通 信 
Linux 为 进程 互相 通信 提供 了 丰富 环境 。 通 信 可 能 只 是 让 另 一 进程 知道 某 个 事件 已 经 发 
生 ， 或 者 可 能 涉及 传输 数据 从 一 个 进程 到 另 一 个 进程。 


16.9.1 同步 与 信号 


通知 进程 事件 发 生 的 标准 Linux 机 制 为 信号 ( signal)。 信 和 号 可 以 从 任何 进程 发 送 到 任何 
其 他 进程 ; 对 于 发 送 到 另 一 用 户 进程 的 信号 ， 有 些 限 制 。 然 而 ， 只 有 有 限 数量 的 可 用 信和 号 ， 
而 且 它 们 不 能 携带 信息 。 只 有 发 生 信号 的 事实 ， 可 用 于 进程 。 信 和 号 不 仅 是 由 进程 生成 的 。 内 
核 在 内 部 也 生成 信号 。 例 如 ， 当 数据 到 达 网 络 通道 时 ， 它 可 以 将 信号 发 到 服务 器 进程 ， 当 子 
进程 终止 时 ， 信 和 号 可 发 到 父 进 程 ; 当 定时 器 到 期 时 ， 信 号 可 发 到 等 待 进程 。 

在 内 部 ，Linux 内 核 并 不 使 用 信号 ， 与 运行 在 内 核 模式 下 的 进程 进行 通信 。 如 果 内 核 模 
式 进程 期 待 事件 发 生 ， 则 它 不 会 采用 信号 来 接收 事件 通知 。 相 反 ， 有 关 来 自 内 核 异 步 事 件 的 
通信 ， 通 过 采用 调度 状态 和 结构 wait_queue 来 进行 。 这 些 机 制 允许 内 核 模式 进程 互相 通知 
相关 事件 ， 并 且 还 允许 事件 由 设备 驱动 程序 或 网 络 系统 来 生成 。 每 当 进 程 想 要 等 待 某 个 事件 
完成 ， 它 将 添加 到 与 该 事件 相关 的 等 待 队列 ， 并 告诉 调用 程序 它 不 再 适合 执行 。 一 旦 事件 完 
成 ， 等 待 队列 上 的 每 个 进程 会 被 唤醒 。 这 个 过 程 允 许多 个 进程 等 待 单个 事件 。 例 如 ， 如 果 多 
个 进程 都 在 尝试 读 取 同 一 磁盘 文件 ， 则 一 旦 数据 成 功 读 到 内 存 ， 它 们 都 会 唤醒 。 

虽然 信号 一 直 是 进程 间 异 步 事件 通信 的 主要 机 制 ， 但 是 Linux 也 实现 了 System V UNIX 
的 信号 量 机 制 。 进 程 如 同等 待 信号 一 样 ， 可 以 轻松 等 待 信号 量 ; 而 且 信 号 量 有 两 个 优点 : 大 
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量 的 信号 量 可 以 在 多 个 独立 进程 之 间 共 享 ， 多 个 信号 量 的 操作 可 以 原子 执行 。 在 内 部 ， 标 准 
Linux 等 待 队列 机 制 用 于 同步 通过 信号 量 通信 的 进程 。 


16.9.2 ”进程 间 的 数据 传递 


Linux 提供 了 多 种 机 制 ， 以 在 进程 之 间 传 递 数据 。 标 准 的 UNIX 管道 (pipe) 机 制 允 许 
子 进程 继承 父 进程 的 通信 通道 ; 写 到 管道 一 端的 数据 可 以 从 另 一 端 读 出 。 在 Linux 下 ， 管 
道 仅仅 只 是 虚拟 文件 系统 软件 的 另 一 种 类 型 的 inode， 每 个 管道 都 有 一 对 等 待 队列 来 同步 
读者 和 写 者 。UNIX 还 定义 了 一 套 网 络 功能 ， 可 以 发 送 数据 流 到 本 地 和 远 地 的 进程 。16.10 
节 讨 论 了 网 络 。 

另 一 种 进程 通信 方法 ， 共 享 内 存 ， 提 供 一 个 极 快 方式 来 传递 大 量 或 少量 的 数据 。 一 个 进 
程 写 到 共享 内 存 区 域 的 任何 数据 ， 可 由 已 经 映射 共享 内 存 区 域 到 地 址 空间 的 任何 其 他 进程 来 
立即 读 出 。 共 享 内 存 的 主要 缺点 是 ， 它 本 身 不 提供 同步 。 进 程 不 能 询问 操作 系统 某 个 共享 内 
存 是 否 已 被 写 人 ， 也 不 能 挂 起 执行 直到 写 和 发生。 当 与 提供 同步 的 其 他 进程 间 通 信 机 制 一 起 
使 用 时 ， 共 享 内 存 就 变 得 特别 强大 。 

Linux 的 共享 内 存 区 域 是 个 可 持续 的 对 象 ， 可 由 进程 创建 或 删除 。 这 种 对 象 可 以 作为 ， 
虽 小 但 独立 的 地 址 空间 。Linux 的 分 页 算法 可 以 挑选 共享 页 面 来 换 出 到 磁盘 ， 就 像 换 出 进程 
的 数据 页 面 。 共 享 内 存 对 象 作为 共享 内 存 区 域 的 后 台 存 储 ， 就 像 文件 可 以 作为 内 存 映射 的 内 
存 区 域 的 后 备 存储 。 当 文件 被 映射 到 虚拟 地 址 空间 时 ， 发 生 的 任何 页 面 错误 导致 文件 的 适当 
页 面 被 映射 到 虚拟 内 存 。 类 似 地 ， 共 享 内 存 映射 导致 页 面 错误 ， 以 便 映 射 持 和 久 的 共享 内 存 对 
象 的 页 面 。 与 文件 一 样 ， 共 享 内 存 对 象 记 住 它们 的 内 容 ， 即 使 没有 进程 已 经 映射 它们 到 虚拟 
内 存 。 


16.10 网络 结构 


网 络 是 Linux 的 一 个 重要 功能 。Linux 不 仅 支持 标准 Internet 协议 ， 以 用 于 大 多 数 的 
UNIX 到 UNIX 的 通信 ， 而 且 实 现 其 他 非 UNIX 操作 系统 的 许多 协议 。 特 别 地 ， 因 为 Linux 
最 初 主要 实现 在 PC， 而 非 大 型 工作 站 或 服务 器 级 系统 ， 它 支持 通常 用 于 PC 网 络 的 许多 协 
议 ， 如 AppleTalk 和 IPX。 

在 内 部 ，Linux 内 核 的 网 络 实现 包括 以 下 三 层 : 

e socket 接口 

© 协议 驱动 程序 

e 网 络 设备 驱动 程序 

用 户 应 用 程序 通过 套 接 字 接 口 执 行 所 有 网 络 请 求 。 这 个 接口 类 似 于 4.3 BSD ERF, 
这 样 使 用 Berkeley 套 接 字 的 任何 程序 无 需 更 改 任何 源 代 码 ， 就 可 在 Linux 上 运行 。 这 个 接 
口 的 描述 参见 A.9.1 节 。BSD 套 接 字 接口 足够 通用 ， 可 以 代表 各 种 网 络 协议 的 网 络 地 址 。 
Linux 使 用 的 这 个 单一 接口 ， 不 仅 用 于 标准 BSD 系统 实现 的 协议 ,而 且 用 于 Linux 支持 的 所 
有 协议 。 

下 一 层 软件 是 协议 栈 ， 在 组 织 形 式 上 类 似 于 BSD 框架 。 每 当 任 何 网 络 数据 到 达 这 层 时 ， 
不 管 是 来 自 应 用 程序 的 socket 还 是 来 自 网 络 设备 驱动 器 ， 这 个 数据 预计 包括 用 于 标注 的 标识 
符 ， 以 指定 包含 的 网 络 协议 。 如 果 需 要 ， 协 议 之 间 可 以 互相 通信 ; 例如 ， 在 Internet WNI 
中 ,不 同 的 协议 管理 路 由 、 错 误 报 告 、 丢 失 数据 的 可 靠 重 传 等 。 
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协议 层 可 以 重 写 数据 包 ， 创 建新 的 数据 包 ， 拆 分 或 重组 数据 包 为 片段 ， 或 简单 地 丢弃 输 
人 的 数据 。 最 终 ， 一 旦 协议 层 已 经 完成 处 理 一 组 数据 包 ， 它 就 继续 传递 它们 : 如 果 数 据 目 的 
地 是 本 地 的 ， 则 上 传 到 套 接 字 接口 ; 如 果 数 据 目的 地 是 远程 的 ， 则 下 传 到 设备 驱动 程序 。 协 
议 层 决 定 ， 它 会 发 送 数 据 包 到 哪个 套 接 字 或 哪个 设备 。 

网 络 协议 栈 的 各 层 之 间 的 所 有 通信 ， 通 过 传递 结构 skbuff ( 套 接 字 缓 存 ) 来 执行 。 每 
个 结构 包括 一 组 指针 ， 指 向 单个 的 连续 的 内 存 区 域 ; 这 个 区 域 代表 一 个 缓冲 区 ， 从 中 可 以 构 
建 网 络 数据 包 。skbuff 的 有 效 数据 不 必 从 skbuff 缓冲 区 的 首部 开始 ， 也 不 必 一 直 横 跨 到 组 
冲 区 的 结束 。 网 络 代 码 可 以 添加 数据 到 数据 包 的 任何 一 端 ， 或 者 从 数据 包 的 任何 一 端 裁剪 数 
据 ， 只 要 结果 仍然 适合 结构 skbuff。 对 于 现代 微 处 理 器 ， 这 个 能 力 尤 其 重要 ， 因 为 CPU 的 
速度 改进 远 远 超过 了 内 存 性 能 。 对 于 操纵 数据 包 的 头 部 与 校 验 和 而 且 避 免 任 何不 必要 的 数据 
复制 ， 这 个 skbuff 架构 相当 灵活 。 

Linux 网 络 系统 的 最 重要 协议 集合 是 TCP/IP 协议 徐 。 这 个 协议 簇 包 括 一 些 单独 协议 。 
IP 协议 可 以 实现 网 络 上 的 任何 位 置 的 两 台 不 同 主机 之 间 的 路 由 。 在 路 由 协议 之 上 是 UDP、 
TCP 和 ICMP 协议 。UDP 协议 在 主机 之 间 传 递 任意 单个 数据 报 。TCP 协议 实现 主机 间 的 可 
靠 连 接 ， 以 便 保 证 数据 包 的 有 序 传递 和 丢失 数据 的 自动 重 传 。ICMP 协议 在 主机 之 间 传 递 各 
种 错误 和 状态 信息 。 

每 个 数据 包 (skbuff) 到 达 网 络 协议 栈 的 软件 ， 预 计 标 注 一 个 内 部 标识 符 ， 以 指示 数 
据 包 的 相关 协议 。 不 同 网 络 设备 驱动 程序 按 不 同方 式 来 编码 协议 类 型 ， 因 此 ， 输 入 数据 的 
协议 应 在 设备 驱动 程序 中 加 以 标识 。 设 备 驱 动 程 序 采 用 已 知 网 络 协议 标识 符 的 一 个 哈 希 表 ， 
以 查找 合适 协议 ， 并 传递 数据 包 到 这 个 协议 。 新 的 协议 可 以 作为 内 核 可 加 载 模块 添加 到 哈 
希 表 。 

传 入 的 IP 数据 包 被 传 到 IP 驱动 程序 。 这 层 的 工作 是 执行 路 由 。 在 确定 数据 包 发 送 到 哪 
里 之 后 ，IP 驱动 程序 将 数据 包 转 到 适当 内 部 协议 驱动 程序 ， 以 便 交 付 本 地 ; 或 者 注入 所 选 
网 络 设备 驱动 程序 队列 ， 以 便 传 到 另 一 主机 。 它 采用 两 个 表 来 执行 路 由 决策 : 持久 的 转发 信 
息 库 (Forwarding Information Base, FIB) 和 最 近 路 由 决定 的 缓存 。FIB 包括 路 由 配置 信息 ， 
可 以 通过 基于 特定 目的 地 的 地 址 或 者 代表 多 目的 地 的 通配符 来 指定 路 由 。FIB 采用 按 目 的 地 
址 来 索引 的 一 组 哈 希 表 ; 代表 最 具体 的 路 由 的 表格 总 是 最 先 搜索 。 这 个 表 的 成 功 查找 会 被 添 
加 到 路 由 缓存 表 ， 它 仅 通过 特定 目的 地 缓存 路 由 。 没 有 通配符 存储 在 缓存 中 ， 因 此 可 以 快速 
查找 。 路 由 缓存 中 的 条 目 在 一 定时 间 段 内 没有 命中 ， 就 会 失效 。 

在 各 个 阶段 , IP 软件 传送 数据 包 到 一 个 单独 代码 区 以 进行 防火 墙 管理 (firewall management), 
即 通常 由 于 安全 目的 ， 根 据 任意 标准 ， 选 择 过 滤 数 据 包 。 防 火 墙 管理 程序 维护 了 一 些 单独 的 
防火 墙 链 (firewall chains)， 并 人 允许 一 个 skbuff 匹配 任何 链 。 为 不 同 用 途 保留 链 : 一 个 用 于 
转发 数据 包 ， 一 个 用 于 输入 数据 包 到 主机 ， 还 有 一 个 用 于 主机 生成 的 数据 。 每 条 链 都 有 一 个 
有 序 的 规则 列表 ， 每 个 规则 指定 一 个 可 能 的 防火 墙 决策 函数 和 匹配 目的 一 些 数 据 。 

IP 驱动 程序 执行 的 另外 两 个 功能 是 大 数据 包 的 拆卸 和 重组 。 如 果 传 出 数据 包 太 大 而 不 
能 排队 到 设备 ， 则 它 被 简单 地 分 成 更 小 的 片段 (fragment)， 再 排队 到 驱动 程序 。 接 收 主机 必 
须 重组 这 些 片段 。IP 驱动 程序 维护 : 对 象 ipfrag， 用 于 每 个 等 待 重组 片段 ; 对 象 ijpqg， 用 
于 等 待 重组 的 数据 报 。 传 人 片段 与 每 个 已 知 ipg 相 匹 配 。 如 果 匹 配 片段 找到 ， 它 会 增加 到 相 
应 ipa; 否则 ,创建 新 的 ipq。 一旦 最 后 片段 已 经 到 达 ipq， 全 新 的 skbuff 被 构造 以 保持 
新 的 数据 包 ， 而 这 个 数据 包 传 回 到 IP 驱动 程序 。 
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IP 目的 地 为 本 主机 的 数据 包 被 传递 到 一 个 其 他 协议 驱动 程序 。UDP 和 TCP 协议 通过 源 
和 目的 套 接 字 共享 相关 数据 包 : 每 对 套 接 字 通过 源 地 址 、 目 的 地 址 、 源 端口 和 目的 端口 来 唯 
一 地 标识 。 套 接 字 列表 链接 成 哈 希 表 ， 并 采用 这 4 个 地 址 和 端口 的 值 为 关键 字 ， 根据 传人 数 
据 包 来 查找 套 接 字 。TCP 协议 必须 处 理 不 可 靠 连接 ， 因 此 它 维护 : 未 确认 的 传 出 数据 包 的 
有 序列 表 ， 以 便 超时 重 传 ; 乱 序 的 传人 数据 包 的 有 序列 表 ， 以 便当 缺少 数据 到 达 时 传 到 套 
接 字 。 


16.11 安全 


Linux 安全 模型 与 典型 UNIX 安全 机 制 密切 相关 。 安 全 问题 可 以 分 为 两 类 : 

e 认证 。 确 保 用 户 只 有 首先 证 明 具 有 登录 权限 ， 才 能 访问 系统 。 

e 访问 控制 。 提 供 一 种 机 制 ， 检 测 用户 是 否 有 权 访 问 某 一 对 象 ， 并 且 根 据 需要 阻止 访 
问 对 象 。 


16.11.1 认证 


UNIX 认证 通常 通过 使 用 公开 可 读 的 密码 文件 来 执行 。 用 户 密码 与 随机 “ 盐 ”(salt) 值 
相 结 合 ， 这 个 结果 通过 单 向 转换 函数 加 以 编码 ， 并 存储 在 密码 文件 中 。 使 用 单 向 函数 意味 
着 ,原来 的 密码 除非 试 错 不 能 从 密码 文件 中 推出 。 当 用 户 提 供 密 码 到 系统 时 ， 密 码 与 密码 
文件 中 的 存储 的 盐 值 相 结合 ， 并 通过 同样 单 向 转换 来 传递 。 如 果 这 个 结果 匹配 密码 文件 的 内 
容 ， 则 密码 就 被 接受 。 

从 历史 上 看 ， 这 种 机 制 的 UNIX 实现 已 有 多 个 缺点 。 密 码 通 常 限 于 8 个 字符 ， 可 能 盐 值 
的 数量 如 此 之 低 ， 以 致 于 攻击 者 可 以 轻松 地 将 每 个 可 能 的 盐 值 与 常用 密码 的 字典 相 结 合 ， 并 
有 很 好 的 机 会 来 匹配 密码 文件 中 的 一 个 或 多 个 密码 ， 从 而 获取 任何 受到 影响 账户 的 未 经 授 
权 访 问 。 已 经 引入 了 密码 机 制 的 扩展 : 加 密 密 码 在 不 是 公共 可 读 的 文件 中 保密 ， 人 允许 更 长 的 
密码 或 采用 更 安全 的 密码 加 密 方法 。 已 经 引入 了 其 他 认证 机 制 ， 限 制 用 户 允 许 连 到 系统 的 时 
段 。 而 且 ， 也 有 机 制 来 分 布 认证 信息 到 网 络 中 的 所 有 相关 系统 。 

UNIX 厂商 开发 了 新 的 安全 机 制 ， 以 处 理 认证 问题 。 可 揪 拔 认证 模块 (Pluggable Authentication 
Module, PAM) 系统 是 基于 共享 库 ， 它 可 以 用 于 需要 认证 用 户 的 任何 系统 组 件 。 这 个 系统 的 
实现 可 以 用 于 Linux。PAM 允许 认证 模块 ， 根 据 系统 配置 文件 来 按 需 加 载 。 如 果 以 后 添加 新 
的 认证 机 制 ， 它 可 以 添加 到 配置 文件 ， 所 有 的 系统 组 件 都 能 够 立即 利用 它 。PAM 模块 可 以 
指定 认证 方法 、 账 户 限制 、 会 话 设置 功能 和 密码 更 改 功能 (这样 ， 当 用 户 更 改 密码 时 ， 所 有 
必要 的 认证 机 制 可 以 立即 更 新 )。 


16.11.2 访问 控制 


对 于 UNIX 系统 (包括 Linux)， 访 问 控制 通过 采用 唯一 的 数字 标识 符 来 执行 。 用 户 标识 
符 (UID) 标识 单个 用 户 或 一 组 访问 权限 。 组 标识 符 (GID) 是 另 一 种 标识 符 ， 可 以 用 于 标识 
属于 多 个 用 户 的 权限 。 

访问 控制 用 于 系统 内 的 各 种 对 象 。 系 统 内 的 每 个 可 用 文件 采用 标准 访问 控制 机 制 。 另 
外 ， 其 他 共享 对 象 ， 如 共享 内 存 部 分 和 信号 量 , 采用 同一 访问 系统 。 

在 用 户 和 组 访问 控制 下 ，UNIX 系统 的 每 个 对 象 都 有 单个 UID 和 与 其 关联 的 单个 GID。 
虽然 用 户 进程 也 有 一 个 UID, 但 是 它们 可 能 有 多 个 GID。 如 果 进 程 UID 匹配 对 象 UID Wl 
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进程 具有 这 个 对 象 的 用 户 权 限 (user right) 或 所 有 者 权限 (owner right); 如 果 两 个 UID APL 


配 ， 而 进程 的 任何 GID 匹配 对 象 GID， 则 具有 组 权限 (group right); 否则， 进程 具有 世界 
权限 (world right) 。 

Linux RPA RPE (protection mask) 来 实现 访问 控制 ; 这 种 掩 码 指 定 ， 具 有 
所 有 者 、 组 和 世界 访问 权限 的 进程 允许 哪些 访问 模式 ， 即 读 、 写 或 执行 。 例 如 ， 对 象 所 有 者 
能 够 对 文件 进行 完全 的 读 、 写 、 执 行 等 访问 ;特定 组 的 其 他 用 户 能 够 进行 读 访问 ， 但 不 能 进 
行 写 访问 ; 而 其 他 用 户 根本 没有 访问 权限 。 

唯一 例外 是 特权 的 根 (root) UID。 具 有 这 个 特殊 UID 的 进程 允许 对 系统 的 任何 对 象 的 
自动 访问 ， 从 而 绕 过 正常 的 访问 检查 。 这 种 进程 允许 执行 特权 操作 ， 如 读 取 任何 物理 内 存 或 
打开 预 留 网 络 套 接 字 。 这 种 机 制 允 许 内 核 阻 止 普通 用 户 访问 这 些 资源 : 大 部 分 重要 的 内 核 内 
部 资源 由 根 UID 隐 式 拥有 。 

Linux 实现 了 标准 的 UNIX setuid 机 制 (如 A.3.2 节 所 述 )。 这 个 机 制 允 许 程序 按 不 同 
于 运行 程序 的 用 户 权 限 来 运行 。 例 如 ， 程 序 pr (用 于 提交 作业 到 打印 队列 ) 有 权 访 问 系 统 
打印 队列 ， 即 使 运行 程序 的 用 户 没 有 。UNIX setuid 的 实现 区 分 进程 的 真实 与 有 效 的 UID. 
真实 的 UID 是 运行 程序 用 户 的 ;有效 的 UID 是 文件 所 有 者 的 。 

在 Linux 下 ， 有 两 种 方式 可 以 增强 这 个 机 制 。 第 一 ，Linux 实现 POSIX 规范 的 saved 
user-id (保存 用 户 ID) 机 制 ， 以 允许 进程 反复 丢弃 与 重新 获取 有 效 UID。 出 于 安全 考虑 ， 
程序 可 能 需要 在 安全 模式 下 执行 大 多 数 操作 ， 放 弃 由 setuid 状态 授予 的 特权 ; 但 是 它 可 能 
采用 所 有 特权 来 执行 所 选 操作 。 标 准 UNIX 实现 只 能 通过 交换 真实 UID 和 有 效 UID 来 实现 
这 个 功能 。 当 这 样 做 时 ， 以 前 有 效 UID 会 被 记 住 ， 而 程序 的 真实 UID 并 不 总 是 对 应 于 运行 
程序 的 用 户 UID。 保存 的 UD 允许 进程 设置 有 效 UID 到 真实 UID ， 然 后 返回 到 有 效 UID 的 
以 前 值 ， 而 不 必 随 时 修改 真实 UID。 

Linux 提供 的 第 二 种 增强 是 ， 增 加 进程 特征 ， 以 授权 有 效 UID 权限 子 集 。 当 授予 文件 访 
问 权 限时 ， 可 以 采用 进程 属性 fsuid 和 fsgid。 每 当 设置 有 效 UID 或 GID 时 ， 会 设置 适当 属 
性 。 然 而 ，fsuid 和 fsgid 的 设置 可 以 独立 于 有 效 id， 人 允许 进程 代替 另 一 个 用 户 来 访问 文件 ， 
而 无 需 按 任 何其 他 方式 来 取得 这 个 用 户 的 身份 。 具 体 来 说 ， 服 务 器 进程 可 以 使 用 这 种 机 制 ， 
允许 某 个 用 户 处 理 文件 ， 而 不 必 担 心 这 个 用 户 杀 死 或 暂停 这 个 进程 。 

最 后 ，Linux 提供 了 一 种 机 制 ， 以 灵活 传递 权限 从 一 个 程序 到 另 一 个 程序 ; 这 种 机 制 常 
见于 现代 版 本 的 UNIX。 当 本 地 网 络 套 接 字 在 系统 上 的 任何 两 个 进程 之 间 已 被 设置 时 ， 任 一 
进程 都 有 可 能 将 一 个 打开 文件 的 描述 符 发 送 到 另 一 其 他 进程 ; 这 个 其 他 进程 收 到 同样 文件 的 
一 个 重复 文件 描述 符 。 这 种 机 制 允许 客户 端 可 选 地 传递 单个 文件 访问 到 某 个 服务 器 进程 ， 而 
没有 授予 这 个 进程 任何 其 他 权限 。 例 如 ， 打 印 服务 器 不 再 需要 读 取 ， 提 交 新 打印 作业 的 用 户 
的 所 有 文件 。 打 印 客户 端 可 以 简单 地 传递 需要 打印 的 任何 文件 的 文件 描述 符 ; 而 拒绝 服务 器 
访问 任何 用 户 的 其 他 文件 。 


16.12 小 结 


Linux 是 基于 UNIX 标准 的 、 现 代 的 、 免 费 的 操作 系统 。 它 可 以 高 效 地 且 可 靠 地 运行 在 
普通 PC 硬件 上 ， 也 可 以 运行 在 其 他 各 种 平台 上 ， 如 和 手机。 它 提供 了 与 标准 UNIX 系统 兼容 
的 编程 接口 和 用 户 接口 ， 并 可 运行 大 量 的 UNIX 应 用 程序 ， 包 括 数量 日 益 增 长 的 商用 程序 。 

Linux 并 不 是 赁 空 发 展 而 成 的 。 完 整 的 Linux 系统 包括 了 许多 独立 于 Linux 而 开发 的 组 
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fF. Linux 操作 系统 的 内 核 核心 是 全 新 的 ， 但 它 多 许 运 行 现 有 免费 UNIX 软件 ， 从 而 形成 了 
独立 于 专用 代码 的 完全 兼容 UNIX 的 一 个 操作 系统 。 


由 于 性 能 原因 ，Linux 内 核实 现 采 用 传统 的 单 片 内 核 ， 但 是 它 的 设计 足够 模块 化 ， 以 多 


许 在 运行 时 动态 加 载 和 钾 载 大 多 数 的 驱动 程序 。 


Linux 是 个 多 用 户 系统 ， 提 供 进程 之 间 的 保护 ， 并 根据 分 时 调度 器 运行 多 个 进程 。 新 创 


建 的 进程 可 以 与 父 进 程 共享 部 分 可 选 的 执行 环境 ， 支 持 多 线程 编程 。 进 程 间 通 信 的 支持 包 
ff: System V 机 制 (如 消息 队列 、 信 号 量 和 共享 内 存 ) 和 BSD 套 接 字 接口 。 多 个 网 络 协议 
通过 套 接 字 接 口 可 以 同时 访问 。 


内 存 管 理 系统 采用 页 面 共享 和 写 时 复制 ， 以 最 小 化 不 同 进程 共享 数据 的 重复 。 页 面 在 首 


次 引用 时 按 需 加 载 ; 而 在 需要 回收 物理 内 存 时 采用 LFU 算法 调 回 页 面 到 备份 存储 。 


对 于 用 户 ， 文 件 系统 为 遵循 UNIX 语义 的 分 层 目 录 树 。 在 内 部 ，Linux 使 用 抽象 层 来 管 


理 多 个 文件 系统 ， 包 括 面 向 设备 文件 系统 、 网 络 文件 系统 、 虚 拟 文 件 系 统 等 。 面向 设备 文件 


系统 ， 


通过 与 虚拟 内 存 系统 集成 的 页 面 缓存 来 访问 磁盘 存储 。 
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通过 高 级 语言 ， 如 C 语言 ， 来 编写 操作 系统 的 优点 和 缺点 是 什么 ? 
在 什么 情况 下 ， 系 统 调用 序列 fork() 和 exec() 是 最 合适 的 ? 何 时 vfork() 更 好 ? 738 
应 该 采用 哪 种 类 型 套 接 字 来 实现 计算 机 之 间 的 文件 传输 程序 ”程序 应 该 采用 哪 种 类 型 来 定期 测 
试 男 一 计算 机 是 否 已 在 网 上 , 请 解释 。 
Linux 运行 于 多 种 硬件 平台 。Linux 开发 人 员 必 须 采取 什么 步骤 ， 以 确保 系统 可 移植 到 不 同 的 
处 理 

只 使 内 核定 义 的 一 些 符号 用 于 可 加 载 内 核 模块 的 优点 和 缺点 是 什么 ? 
用 于 Linux 内 核 加 载 内 核 模块 的 冲突 解决 机 制 的 主要 目标 是 什么 ? 
讨论 如 何 采用 Linux clone) 来 支持 进程 和 线程 。 
你 会 将 Linux 线程 分 为 用 户 级 线程 还 是 内 核 级 线程 ? 通过 适当 论据 来 支持 你 的 答案 。 
与 克隆 线程 的 代价 相 比 ， 创 建 和 调度 进程 会 有 什么 额外 成 本 ? 

Linux 完全 公平 调度 器 ( Completely Fair Scheduler，CFS ) 与 传统 UNIX 进程 调度 器 相 比 ， 如 
何 提高 公平 性 ? 什么 时 候 保证 公平 ? 

公平 调度 程序 (Completely Fair Scheduler, CFS) 的 两 个 可 配置 变量 是 什么 ? 每 个 变量 设 成 极 
小 或 极 大 的 优点 和 缺点 是 什么 ? 

Linux 调度 器 实现 了 “ 软 ” 实 时 调度 。 某 些 实 时 编程 任务 所 需 的 什么 功能 是 缺乏 的 ? 它们 如 何 
可 以 添加 到 内 核 ? 这 些 功 能 的 代价 (缺点) 是 什么 ? 

在 什么 情况 下 ， 用 户 进 程 请 求 操作 ， 以 便 导致 按 需 清 零 内 存 的 分 配 ? 

什么 情况 导致 页 面 被 映射 到 用 户 程序 的 地 址 空间 ， 并 且 启 用 写 时 复制 属性 ? 

对 于 Linux， 共 享 库 执行 操作 系统 的 许多 操作 。 将 这 些 功 能 放 在 内 核 之 外 的 优点 是 什么 ”有 什 
么 缺点 ? 解释 你 的 答案 。 

日 志文 件 系统 ， 如 Linux ext3 ， 有 什么 优点 ? 代价 是 什么 ? 为 什么 ext3 提供 选项 以 只 记录 元 
数据 ? 

Linux 操作 系统 的 目录 结构 可 以 包括 对 应 于 多 个 不 同文 件 系统 的 文件 ,包括 Linux 的 文件 系统 
/proc。 需 要 支持 不 同文 件 系统 类 型 如 何 影响 Linux 内 核 结 构 ? 
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16.18 Linux setuid 功能 与 SVR4 setuid 功能 有 何不 同 ? 
16.19 Linux 源 代码 通过 Internet 和 CD-ROM 厂商 可 以 自由 并 且 广 泛 地 得 到 。 对 于 Linux 系统 的 安全 
性 ， 这 种 可 用 性 有 哪 三 个 含义 ? 


推荐 读物 

Linux 系统 是 Internet 的 产物 ; 因此 ， 很 多 Linux 文档 可 以 从 Internet 按 某 种 形式 来 获得 。 以 下 主 
要 站 点 包括 了 大 部 分 有 用 信息 : 

e《 Linux 交叉 引用 网 页 》(LXR) (http://Ixr.linux.no) 维护 Linux 内 核 的 当前 列表 ， 可 以 通过 Web 

浏览 ， 而 且 完 全 交叉 引用 。 

o (ARBAB ) (Kernel Hacker’s Guide) 提供 了 有 关 Linux 内 核 组 件 和 内 部 的 有 用 概述 ， 位 于 

http:/tldp.org/LDP/tlk/tlk.htmls 

e《Linux 周刊 新 闻 》(Linux Weekly News, LWN) (http://Iwn.net) 每 周 提供 一 次 Linux 相关 新 闻 ， 

包括 有 关 Linux 内 核 新 闻 的 一 个 非常 好 的 研究 小 节 。 

有 许多 致力 于 Linux 的 邮件 列表 。 最 重要 的 是 由 邮件 列表 管理 器 来 维护 的 ， 这 可 以 通过 电子 邮件 
地 址 majordomo@vger.rutgers.edu 来 获得 。 有 关 如 何 访问 列表 服务 器 和 订阅 任何 列表 的 信息 ， 给 这 个 
地 址 发 一 封 电子 邮件 ， 正 文 只 要 一 句 “help” 就 可 以 了 。 

最 后 ，Linux 系统 本 身 可 以 通过 互联 网 获得 。 完 整 的 Linux 发 行 可 从 有 关公 司 的 主页 上 获得 ，Li- 
nux 社区 在 Internet 的 多 个 站 点 也 维护 当前 系统 组 件 的 备份 。 最 重要 的 是 ftp://ftp.kernel.org/pub/linux。 

除了 查找 互联 网 资源 ， 关 于 Linux 内 核 细节 ， 可 以 参阅 Mauerer (2008 ) 和 Love (2010), 


参考 文献 


[Love (2010)] R. Love, Linux Kernel Development, Third Edition, Developer’s 
Library (2010). 


[Mauerer (2008)] W. Mauerer, Professional Linux Kernel Architecture, John Wiley 
and Sons (2008). 


| 第 17 章 


Operating System Concepts, Ninth Edition 


Windows 7 
Dave Probert 更 新 


Microsoft Windows 7 操作 系统 是 32 位 /64 位 、 抢 占 式 、 多 任务 、 客 户 端的 操作 系统 ， 
用 于 采用 Intel IA-32 和 AMD64 指令 集 架 构 ( Instruction Set Architecture, ISA) 的 微 处 
理 器 。Microsoft 的 对 应 服务 器 操作 系统 Windows Server 2008 R2， 基 于 与 Windows 7 相 
同 代码 ,但 仅 支 持 64 位 的 AMD64 Al IA64 (Itanium) ISA. Windows 7 是 微软 基于 NT 代 
码 的 、 操 作 系 统 系列 的 最 新 版 本 ，NT 代码 代替 了 基于 Windows 95/98 的 早期 系统 。 本 章 
讨论 了 Windows 7 的 主要 目标 、 易 于 使 用 的 分 层 系统 架构 、 文 件 系 统 、 网 络 特征 和 编程 接 
口 等 。 

本 章 目标 

o 探讨 Windows 7 的 设计 原理 和 系统 的 特定 组 件 。 

e 详细 讨论 Windows 7 的 文件 系统 。 

e 说 明 Windows 7 支持 的 网 络 协 议 。 

o 描述 Windows 7 的 系统 和 应 用 程序 的 接口 。 

e 描述 Windows 7 实现 的 重要 算法 。 


17.1 历史 


在 20 世纪 80 年代 中 期 ，Microsoft 和 IBM 合作 开发 OS/2 操作 系统 ; 该 系统 采用 汇编 
语言 来 编写 ， 用 于 单 处 理 器 Intel 80286 的 系统 。1988 年 ，Microsoft 决定 结束 与 IBM 的 共 
同 努力 ， 而 开发 自己 的 “新 技术 ”( 或 NT) 可 移植 操作 系统 来 支持 OS/2 和 POSIX 的 应 用 程 
序 编程 接口 ( Application Programming Interface，API)。1988 年 10 月 ，DEC VAX/VMS 操 
作 系 统 的 架构 师 Dave Cutler 受聘 构建 微软 新 的 操作 系统 。 

最 初 ， 该 团队 计划 采用 OS/2 API 作为 NT 的 本 地 环境 ， 但 是 在 开发 过 程 中 ，Windows 
NT 改 为 使 用 新 的 32 位 Windows API ( 称 为 Win32 )， 它 是 基于 流行 的 Windows 3.0 的 16 位 
API. NT 的 第 一 个 版 本 是 Windows NT 3.1 和 Windows NT 3.1 Advanced Server。( 当 时 ，16 
位 Windows 的 版 本 是 3.1。) Windows NT V4.0 采 用 了 Windows 95 的 用 户 界 面 ， 并 且 集 成 
T Internet Web 服务 器 和 Web 浏览 器 软件 。 另 外 ， 用 户 接口 程序 和 所 有 图 形 代 码 移 进 内 核 
以 便 提高 性 能 ， 但 是 副作用 是 可 靠 性 的 降低 。Windows 2000 发 布 于 2000 年 2 月 ， 由 于 市 场 
因素 只 支持 Intel (或 兼容 的 ) 处 理 器 ， 尽 管 NT 的 以 前 版 本 虽 已 移植 到 其 他 微 处 理 器 架构 。 
Windows 2000 进行 了 重大 修改 。 它 增加 了 Active Directory (基于 X.500 的 目录 服务 )、 更 好 
的 网 络 和 笔记 本 计算 机 的 支持 、 即 插 即 用 设备 的 支持 、 分 布 式 文件 系统 以 及 更 多 处 理 器 和 更 
多 内 存 的 支持 等 。 

2001 年 10 月 ，Windows XP 发 布 了 ， 它 是 Windows 2000 桌面 操作 系统 的 升级 ， 也 是 
Windows 95/98 的 替代 。2002 年 ，Windows XP 的 服务 器 版 本 ( 称 为 Windows.Net Server) 
也 发 布 了 。Windows XP 通过 更 新 硬件 技术 的 可 视 化 设计 更 新 了 图 形 用 户 界 面 (GUI) 和 很 
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多 新 的 易 用 特征 (ease-of-use feature)。 许 多 特征 也 被 增加 以 自动 修复 应 用 程序 和 操作 系统 
本 身 的 问题 。 由 于 这 些 更 改 ， 相 比 以 前 Windows 操作 系统 ，Windows XP 提供 了 更 好 的 网 络 
和 设备 体验 (包括 零 配置 无 线 、 即 时 通信 、 流 媒体 、 数 字 摄 影 / 视频 )、 台 式 和 大 型 多 处 理 器 
的 明显 性 能 改进 以 及 更 好 的 可 靠 性 和 安全 性 。 

期 待 已 久 的 Windows XP 的 更 新 版 即 Windows Vista， 发 布 于 2006 年 11 月， 但 是 没有 
受到 好 评 。 虽 然 Windows Vista 包括 许多 后 来 出 现在 Windows 7 的 改进 ， 但 是 这 些 改 进 被 
Windows Vista 的 感觉 迟钝 和 兼容 性 的 问题 所 掩盖 。 微 软 通过 改进 开发 流程 并 与 Windows 
硬件 和 应 用 程序 制造 商 的 更 为 密切 的 合作 来 回应 对 Windows Vista 的 批评 。 这 一 结果 就 是 
Windows 7 (发 布 于 2009 年 10 H) 与 对 应 版 本 的 Windows 服务 器 。 重 要 的 工程 改进 是 ， 更 
多 使 用 执行 跟踪 (execution tracing) 而 非 通过 计数 器 或 侧面 来 分 析 系 统 行为 。 跟 踪 在 系统 中 
不 断 地 运行 ， 观 察 数 百 场景 执行 。 当 有 的 场景 失败 ， 或 当 执 行 成 功 但 执行 欠 佳 时 ， 可 以 分 析 
跟踪 以 便 确定 原因 。 

Windows 7 使 用 客户 端 - 服务 器 架构 (如 Mach)， 通 过 称 为 子 系统 的 用 户 级 进程 实现 两 
个 操作 系统 个 性 : Win32 和 POSIX。 (一度 ，Windows 还 支持 OS/2 于 系统 ， 但 是 由 于 OS/2 
的 消亡 ， 也 被 Windows XP 删除 。) 子 系统 架构 允许 增强 操作 系统 个 性 ， 而 不 影响 其 他 子 系 
统 的 应 用 程序 的 兼容 性 。 虽 然 Windows 7 的 POSIX 子 系统 继续 可 用 ，Win32 API 已 经 变 得 
非常 流行 ， 而 POSIX API 只 由 少量 应 用 。 虽 然 从 操作 系统 角度 ， 学 习 子 系统 方法 继续 有 趣 ， 
但 是 机 器 虚拟 化 技术 现 已 成 为 在 单机 上 运行 多 个 操作 系统 的 主要 方式 。 

Windows 7 是 个 多 用 户 操作 系统 ， 通 过 分 布 式 服务 或 通过 Windows 终端 服务 的 多 个 
GUI 实例 ， 以 便 支持 同时 访问 。 服 务 器 版 本 的 Windows 7 并 发 支持 Windows 桌面 系统 的 终 
端 服务 器 会 话 。 桌 面 版 本 的 终端 服务 器 在 每 个 登录 用 户 的 虚拟 终端 会 话 之 间 复 用 键盘 、 鼠 标 
和 显示 器 。 这 个 功能 称 为 快速 用 户 切换 (fast user switching)， 人 允许 用 户 互相 抢占 PC 控制 终 
端 ， 而 不 必 注 销 与 登录 。 

我 们 前 面 说 过 ， 在 Windows NT 4.0 中 有 些 GUI 实现 移 到 内 核 模式 。 而 在 Windows 
Vista 中 ， 它 又 开始 移 到 用 户 模式 ， 包 括 作 为 用 户 模 式 进 程 的 桌面 窗口 管理 器 (Desktop 
Window Manager, DWM), DWM 实现 了 包括 Windows 的 桌面 ， 提 供 了 在 Windows DirectX 
图 形 软件 之 上 的 Windows Aero 界面 外 观 。Direct X 继续 运行 在 内 核 中 ， 如 同 Windows 实现 
以 前 窗口 和 图 形 模型 ( Win32k 和 GDI) 的 代码 。Windows 7 对 DWM 做 了 重大 修改 ， 大 大 
降低 了 DWM 内 存 占用 ， 并 且 改 进 了 性 能 。 

Windows XP 是 64 位 Windows 的 第 一 个 版 本 (2001 年 ， 支 持 IA64 ; 2005 年 ， 支 持 
AMD64 )。 在 内 部 ， 本 地 NT 文件 系统 (NTFS) 和 许多 Win32 API 在 适当 之 处 总 是 采用 64 
位 整数 ， 这 样 64 位 Windows XP 的 主要 扩展 是 更 大 虚拟 地 址 的 支持 。 然 而 ，64 位 Windows 
也 支持 更 大 的 物理 内 存 。 等 到 Windows 7 发 布 时 ， 几 乎 所 有 来 自 Intel 和 AMD 的 处 理 器 都 
支持 AMD64 ISA。 男 外 ， 客 户 机 的 物理 内 存 经 常 超过 了 IA-32 的 4 GB 限制 。 因 此 ，64 位 
Windows 7 现在 普遍 安装 在 更 大 客户 机 系统 上 。 由 于 AMD64 架构 在 单个 进程 级 别 上 支持 高 
度 的 IA-32 兼容 性 ，32 位 和 64 位 的 应 用 程序 可 以 在 单个 系统 上 自由 地 混合 。 

在 Windows 7 的 后 面 描述 中 ， 我 们 不 会 区 分 Windows 7 的 客户 端 版 本 与 相应 的 服务 器 
版 本 。 它 们 基于 同样 的 核心 组 件 ， 并 为 内 核 和 驱动 程序 运行 同样 的 二 进 制 文件 。 同 样 ， 虽 
然 Microsoft 按照 不 同市 场 价格 来 销售 不 同 版 本 的 Windows 7, 但 是 系统 内 核 几乎 没有 差异 。 
本 章 主 要 关注 Windows 7 的 核心 组 件 。 
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17.2 设计 原则 


Microsoft Windows 的 设计 目标 包括 安全 性 、 可 靠 性 、Windows 和 POSIX 应 用 程序 
兼容 性 、 高 性 能 、 可 扩展 性 、 可 移植 性 和 国际 化 支持 。 最 近 ， 一 些 其 他 目标 ， 如 电源 效率 
和 动态 设备 支持 ， 也 已 添 到 这 个 列表 。 接 下 来 ,我们 讨论 这 些 目标 以 及 Windows 7 如 何 
实现 它们 。 


17.2.1 安全 性 


Windows 7 的 安全 目标 不 仅 需要 遵守 有 些 设 计 标 准 ， 从 而 使 得 Windows NT 4.0 能 够 获 [743 
得 美国 政府 的 C2 级 安全 。( C2 级 符合 中 等 保护 程度 ， 防 范 缺 陷 软 件 和 恶意 攻击 。 这 些 级 别 
是 由 美国 国防 部 的 可 信 计 算 机 系统 评估 准则 (tL eK AER (Orange Book)) 来 定义 的 ， 如 
15.8 节 所 述 。) 通过 深入 的 代码 审查 和 测试 ， 并 结合 高 级 自动 分 析 工 具 ， 可 以 识别 和 分 析 可 
能 代表 安全 漏洞 的 潜在 缺陷 。 

Windows 的 安全 性 基于 自由 访问 控制 。 系 统 对 象 ， 包 括 文件 、 注 册 表 设置 和 内 核对 象 ， 
通过 访问 控制 列表 ( Access-Control List, ACL) 加 以 保护 (UL 10.6.2 节 )。 然 而 ，ACL 易 受 
用 户 和 程序 员 的 错误 攻击 ， 以 及 针对 消费 者 系统 的 最 常见 攻击 (其 中 用 户 经 常 在 浏览 Web 
时 被 骗 而 运行 代码 )。Windows 7 包括 一 个 机 制 ， 称 为 完整 性 级 别 ( integrity level); 它 作 为 
基本 能 力 系统 来 控制 访问 。 对 象 和 进程 的 完整 性 标记 为 低 、 中 或 高 。 无 论 如 何 设置 ACL， 
Windows 不 允许 进程 修改 具有 更 高 完整 性 级 别 的 对 象 。 

其 他 安全 措施 包括 地 址 空间 布局 随机 化 (Address-Space Layout Randomization, ASLR), 
不 可 执行 的 堆栈 和 堆 以 及 加 密 和 数字 签名 (digital signature) 功能 。 通 过 防止 少量 注入 代码 
来 轻松 转 到 作为 正常 操作 而 加 载 到 进程 的 代码 ，ASLR 挫败 许多 形式 的 攻击 。 这 种 保护 措施 
可 能 使 得 受到 攻击 的 系统 故障 或 崩溃 ， 而 不 是 让 攻击 代码 取得 控制 。 

Intel 与 AMD 的 最 新 芯片 都 是 基于 AMD64 架构 ， 人 允许 标记 内 存 页 面 使 得 它们 不 能 包含 
可 执行 的 指令 代码 。Windows 试图 标记 堆栈 和 内 存 堆 ， 这 样 它们 不 能 用 于 执行 代码 ， 从 而 防 
止 攻击 ( 即 程序 错误 允许 缓冲 溢出， 从 而 被 骗 执行 缓冲 区 的 内 容 )。 这 种 技术 不 能 用 于 所 有 
程序 ， 因 为 有 些 依赖 于 修改 数据 并 执行 它 。Windows 任务 管理 器 的 列 “ 数 据 执行 预防 ”， 显 
示 哪 些 进程 被 标记 以 防止 这 些 攻 击 。 

Windows 使 用 加 密 作为 常规 协议 的 一 部 分 ， 如 那些 用 于 与 网 站 安全 通信 的 。 加 密 也 用 
于 保护 存储 在 磁盘 上 的 用 户 文件 ， 而 不 被 帘 视 。Windows 7 允许 用 户 采 用 BitLocker, A 
轻松 加 密 几 乎 整个 磁盘 以 及 可 移动 存储 设备 ， 如 USB 闪存。 如果 具有 加 密 磁盘 的 计算 机 
被 盗 ， 则 盗贼 需要 非常 尖端 的 技术 〈 如 电子 显微镜 )， 以 获得 任何 计算 机 文件 的 访问 权限 。 
Windows 使 用 数字 签名 ， 来 对 操作 系统 二 进 制 文件 进行 签名 ， 这 样 它 可 以 验证 文件 是 否 由 
微软 或 另 一 家 知名 公司 所 生产 。 对 于 某 些 版 本 的 Windows， 代 码 完整 性 〈code integrity) 模 
块 在 启动 时 被 激活 ， 以 确保 内 核 中 的 所 有 加 载 模块 都 有 有 效 答 名， 确保 它们 没有 被 离线 攻 
击 所 算 改 。 


17.2.2 可靠 性 


Windows 操作 系统 经 过 十 年 发 展 变 得 非常 成 熟 ， 形 成 了 Windows 2000。 同 时 ， 由 于 
各 种 因素 ， 如 源 代码 的 成 熟 、 大 量 的 系统 压力 测试 、 改 进 的 CPU 架构 以 及 自动 检测 来 自 
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微软 和 第 三 方 的 驱动 程序 的 许多 严重 错误 等 ， 可 靠 性 也 增加 了 。Windows 随后 扩展 了 许 
多 工具 以 提高 可 靠 性 ， 包 括 源 代码 错误 的 自动 分 析 、 无 效 或 意外 输入 参数 的 测试 〈 称 为 模 
糊 〈fuzzing)， 以 检测 验证 失败 ) 以 及 用 于 动态 检查 常见 用 户 模式 编程 错误 的 驱动 程序 验证 
器 的 应 用 程序 版 本 。 其 他 可 靠 性 的 提升 包括 ， 将 更 多 代码 移出 内 核 并 移 进 用 户 模式 服务 。 
Windows 为 编写 用 户 模式 的 驱动 程序 提供 了 广泛 支持 。 曾 经 在 内 核 中 而 现在 在 用 户 模式 中 的 
系统 功能 包括 桌面 窗口 管理 器 和 大 部 分 音频 软件 堆栈 。 

Windows 的 最 显著 体验 改进 之 一 是 ， 添 加 内 存 诊 断 作 为 启动 选项 。 这 个 补充 特别 有 用 ， 
因为 消费 者 计算 机 很 少 具 有 纠 错 内 存 。 当 坏 RAM 开始 在 这 里 那里 丢弃 位 时 ， 结 果 是 令 人 泪 
丧 的 不 规律 的 系统 行为 。 内 存 诊断 的 可 用 性 大 大 降低 用 户 的 坏 RAM 的 压力 级 别 。 

Windows 7 引入 了 容错 内 存 堆 。 堆 从 应 用 程序 崩溃 中 学 习 ， 并 自动 插入 缓解 到 已 经 崩 演 
的 应 用 程序 的 未 来 执行 。 这 使 得 应 用 程序 更 加 可 靠 ， 即 使 它 包含 常见 的 错误 ， 如 使 用 释放 内 
存 或 访问 超过 分 配 。 

Windows 的 高 可 靠 性 实现 特别 富有 挑战 ， 因 为 将 近 十 亿 台 计算 机 运行 Windows。 甚 至 
仅 影 响 一 小 部 分 用 户 的 可 靠 性 问题 仍然 影响 众多 用 户 。Windows 生态 系统 的 复杂 性 也 增加 了 
挑战 。 数 以 百 万 的 应 用 程序 、 驱 动 程 序 和 其 他 软件 不 断 下 载 并 运行 在 Windows 系统 上 。 当 
然 ， 也 有 恶意 软件 的 持续 攻击 流 。 随 着 Windows 本 身 的 直接 攻击 已 经 很 难 ， 攻 击 越 来 越 多 
地 针对 流行 应 用 程序 。 

为 了 对 应 这 些 挑 战 ，Microsoft 越 来 越 依 赖 用 户 机 器 通信 ， 以 便 收 集 生 态 系统 的 大 量 数 
据 。 机 器 通过 采样 以 便 查看 : 它们 如 何 执行 、 它 们 运行 什么 软件 、 它 们 遇 到 什么 问题 。 当 
系统 或 软件 崩溃 或 挂 起 时 ， 客 户 可 以 发 送 数据 到 Microsoft。 这 个 来 自用 户 机 器 的 固定 数据 
流 ， 在 用 户 同 意 、 不 侵犯 隐私 的 条 件 下 ， 被 非常 仔细 地 收集 。 结 果 是 ，Microsoft 正在 构建 
Windows 生态 系统 发 生 什么 的 不 断 改 进 场景 ， 允 许 通过 软件 更 新 来 持续 改进 ， 以 及 提供 数据 
来 指导 Windows 的 未 来 版 本 。 


17.2.3 Windows #0 POSIX 应 用 程序 兼容 性 


如 前 所 述 ，Windows XP 既是 Windows 2000 的 更 新 ， 也 是 Windows 95/98 的 替代 。Windows 
2000 主要 关注 商业 应 用 程序 的 兼容 性 。Windows XP 的 需求 包括 ， 与 运行 在 Windows 95/98 
上 的 应 用 程序 具有 更 好 的 兼容 性 。 应 用 程序 兼容 性 很 难 实现 ， 因 为 很 多 应 用 程序 检查 特定 版 
本 的 Windows， 可 能 在 某 种 程度 上 依赖 于 API 的 实现 怪 癣 ， 可 能 有 潜在 的 被 以 前 系统 屏蔽 
的 应 用 程序 错误 等 。 应 用 程序 也 可 能 已 经 针对 不 同 指令 集 而 编译 。Windows 7 实现 了 多 种 策 
略 ， 以 运行 并 不 兼容 的 应 用 程序 。 

与 Windows XP 一 样 ，Windows 7 有 一 个 位 于 应 用 程序 和 Win32 API 之 间 的 兼容 层 。 这 
层 使 得 Windows 7 看 起 来 (几乎 ) 与 以 前 版 本 的 Windows 能 够 完全 兼容 。 与 早期 版 本 的 NT 
一 样 ，Windows 7 仍然 支持 转换 (trunking) 层 来 运行 许多 16 位 应 用 程序 ， 这 个 转换 层 将 16 
位 API 调用 转 成 等 效 的 32 位 调用 。 类 似 地 ，64 位 Windows 7 提供 一 个 转换 层 ， 以 将 32 位 
API 调用 转 成 本 地 64 位 调用 。 

Windows 子 系统 模型 允许 支 持 多 个 操作 系统 个 性 。 如 前 所 述 ， 虽 然 Windows 最 常 使 用 
的 API 是 Win32 API， 有 些 版 本 的 Windows 7 支持 POSIX 子 系统 。POSIX 是 用 于 UNIX 的 
规范 标准 ， 人 允许 大 多 数 的 UNIX 兼容 的 可 用 软件 无 需 修 改 就 可 编译 和 运行 。 

作为 最 终 的 兼容 性 措施 ， 多 个 版 本 的 Windows 7 提供 虚拟 机 ， 以 便 运 行 Windows XP, 
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这 人 允许 应 用 程序 获得 与 Windows XP 的 完全 兼容 。 


17.2.4 高 性 能 


Windows 设计 为 桌面 系统 (IO 性 能 为 主要 限制 )、 服 务 器 系统 (CPU 通常 为 瓶颈 ) 和 多 
线程 及 多 处 理 器 环境 (加 锁 与 缓存 管理 对 于 可 扩展 性 尤为 重要 ) 等 提供 了 高 性 能 。 为 了 满足 
性 能 需求 ，NT 采用 各 种 技术 ， 如 异步 JO、 优 化 的 网 络 协议 、 基 于 内 核 的 图 形 泻 染 、 文 件 
系统 数据 的 高 级 缓存 等 。 内 存 管理 和 同步 算法 的 设计 考虑 了 与 传送 块 大 小 (cache line) 和 多 
处 理 器 有 关 的 性 能 。 

Windows NT 设计 支持 对 称 多 处 理 (SMP); 在 多 处 理 器 计算 机 上 ， 多 个 线程 可 以 同时 运 
行 ; 在 内 核 中 ， 甚 至 也 可 以 。 在 每 个 CPU E, Windows NT 采用 基于 优先 级 的 线程 抢占 调度 。 
除了 在 内 核 调 度 程序 中 或 在 中 断 级 别 上 执行 ，Windows 任何 运行 进程 中 的 线程 可 以 被 更 高 优 
先 级 的 线程 抢占 。 因 此 ， 系 统 可 以 快速 响应 ( 见 第 5 章 )。 

构成 Windows NT 的 子 系统 通过 本 地 程序 调用 (Local Procedure Call, LPC) 功能 互相 
有 效 地 通信 ; LPC 提供 了 高 性 能 的 消息 传递 。 当 线程 通过 LPC 请 求 男 一 进程 的 同步 服务 ， 
服务 线程 标记 为 就 绪 ， 它 的 优先 级 暂时 提升 以 避免 调度 延迟 ; 如 果 它 必须 等 待 已 在 队列 的 线 
程 ， 就 有 调度 延迟 。 

Windows XP 的 进一步 性 能 提高 采用 : 降低 关键 函数 的 代码 路 径 长 度 ， 使 用 更 好 的 算法 
和 每 个 处 理 器 的 数据 结构 ， 使 用 非 统 一 内 存 访问 (Non-Uniform Memory Access, NUMA) 
机 器 的 内 存 着 色 ， 以 及 实现 更 多 可 扩展 的 锁定 协议 ， 如 排队 自 旋 锁 。 新 的 锁定 协议 帮助 减少 
系统 总 线 周 期 ， 包 括 无 锁定 列表 和 队列 、 原 子 读 取 - 修改 - 写 和 人 操作 (如 互 锁 增 量 ) 以 及 其 
他 高 级 同步 技术 等 。 

到 开发 Windows 7 时 ， 计 算 已 经 发 生 了 一 些 重大 变化 。 客 户 机 / 服务 器 计算 日 益 重要 ， 
所 以 高 级 本 地 程序 调用 ( Advanced Local Procedure Call, ALPC) 功能 被 引入 ， 以 提供 比 
LPC 更 高 的 性 能 和 更 高 的 可 靠 性 。CPU 的 数量 和 最 大 多 处 理 器 的 可 用 物理 内 存 的 数量 已 经 
大 幅 增加 ， 因 此 在 提高 操作 系统 可 伸缩 性 方面 投入 了 相当 多 的 精力 。 

Windows NT 的 SMP 实现 采用 位 掩 码 ， 以 代表 处 理 器 的 集合 ， 并 识别 ， 例 如 ， 哪 个 特 
定 线程 可 以 调度 在 哪 组 处 理 器 上 。 这 些 位 掩 码 被 定义 为 适合 在 单个 字 内 ， 限 制 系统 支持 的 处 
理 器 数量 为 64。Windows 7 增加 了 处 理 器 组 ( processor group) 的 概念 ， 以 代表 任意 数量 的 
CPU， 从 而 容纳 更 多 的 CPU 内 核 。 不 但 由 于 更 多 的 处 理 核 ， 而 且 由 于 同时 支持 多 个 逻辑 线 
程 执行 的 处 理 核 ， 处 理 核 数量 不 断 增加 。 

针对 用 于 调度 CPU 和 内 存 的 锁 ， 所 有 这 些 额 外 的 CPU 造成 了 大 量 竞争 。Windows 7 细 
分 这 些 锁 。 例 如 ， 在 Windows 7 之 前 ，Windows 调度 程序 使 用 单个 锁 ， 来 同步 访问 包含 等 
待 事件 的 线程 队列 。 在 Windows 7 中 ， 每 个 对 象 都 有 自己 的 锁 ， 人 允许 并 发 访问 队列 。 此 外 ， 
调度 程序 的 许多 执行 路 径 被 重 写 而 无 需 加 锁 。 即 使 对 于 具有 256 个 硬件 线程 的 系统 ， 这 种 更 
改 导致 Windows 具有 很 好 的 可 伸缩 性 。 

其 他 改变 是 由 于 并 行 计 算 支 持 越 来 越 重 要 。 多 年 来 ， 计 算 机 行业 一 直 遵 守 摩尔 定律 
(Moore’s Law)， 导 致 更 高 的 晶体 管 密度 ， 使 得 每 个 CPU 时 钟 速率 更 快 。 摩 尔 定律 继续 成 
立 , 但 是 已 经 达到 极限 从 而 防止 CPU 时 钟 速率 进一步 增加 。 相 反 ， 每 个 芯片 可 以 构建 越 来 
越 多 的 CPU。 实现 并 行 执行 的 新 编程 模型 ， 如 Microsoft 的 Concurrency RunTime ( ConcRT) 
和 Intel 的 Threading Building Blocks ( TBB), MRE C++ 程序 中 表达 并 行 性 。 摩 尔 定律 已 
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经 控制 计算 40 多 年 ; 现在 看 来 ， 控 制 并 行 计 算 的 阿 姆 达尔 定律 (Amdahl's law) 将 会 控制 
未 来 。 

为 了 支持 基于 任务 的 并 行 性 , Windows 7 提供 了 一 种 新 形式 的 用 户 模 式 调 度 (User-Mode 
Scheduling, UMS). UMS 允许 程序 分 解 成 为 任务 ， 然 后 通过 运行 在 用 户 模 式 中 而 非 内核 模 
式 中 的 调度 程序 ， 任 务 可 以 调度 到 可 用 的 CPU。 

最 小 计算 机 的 多 个 CPU 只 是 转向 并 行 计算 的 一 部 分 。 通 过 SIMD ( Single Instruction 
Multiple Data) 架构 来 执行 单个 指令 同时 处 理 多 个 数据 ， 图 形 处 理 单元 ( Graphics Processing 
Unit, GPU) 加 速 图 形 所 需 的 计算 算法 。 这 导致 了 GPU 不 仅 用 于 图 形 计算 ， 而且 用 于 通用 
计算 。 支 持 软 件 OpenCL 和 CUDA 的 操作 系统 允许 程序 利用 GPU, Windows 通过 DirectX 
图 形 支持 的 软件 ， 支 持 使 用 GPU。 这 个 软件 称 为 DirectCompute， 人 允许 程序 采用 用 于 图 形 着 
色 器 (graphics shader) 的 SIMD 硬件 编程 的 同一 HLSL (High-Level Shader Language， 高 级 
着 色 器 语言 ) 编程 模型 ， 指 定 计算 内 核 ( computational kernel) 。 计 算 内 核 在 GPU 上 运行 很 
快 ， 并 将 结果 返 到 CPU 运行 的 主 计算 。 


17.2.5 ”可 扩展 性 


可 扩展 性 (extensibility) 是 操作 系统 跟 上 计算 技术 进步 的 能 力 。 为 了 与 时 俱 进 ， 开 发 人 
员 采 用 分 层 架 构 来 实现 Windows. Windows 执行 体 以 内 核 模式 运行 ， 提 供 基 本 系统 服务 和 
抽象 ， 支 持 系 统 的 共享 使 用 。 在 执行 体 之 上 ， 多 个 服务 器 子 系统 以 用 户 模 式 执行 ;， 有 的 是 
模拟 不 同 操作 系统 的 环境 子 系统 。 因 此 ， 为 Win32 API Ail POSIX 而 编写 的 程序 都 可 以 运行 
在 Windows 的 适当 环境 中 。 由 于 模块 化 结构 ， 可 以 添加 环境 子 系统 而 不 影响 执行 体 。 另 外 ， 
Windows 采用 VO 系统 的 可 加 载 驱动 程序 ， 这 样 新 的 文件 系统 、 新 的 IO 设备 类 型 、 新 的 网 
络 类 型 可 以 在 系统 运行 时 增加 。Windows 像 Mach 操作 系统 一 样 ， 采 用 客户 机 - 服务 器 模 
型 ; 通过 开放 软件 基金 会 定义 的 远程 过 程 调 用 ( Remote Procedure Call，RPC) 支持 分 布 式 
处 理 。 


17.2.6 可 移植 性 


如 果 一 个 操作 系统 可 以 从 一 种 CPU 架构 移 到 另 一 种 ， 而 且 只 需 较 少 修改 ， 则 它 是 可 移 
植 的 (portable)。Windows 设计 成 可 移植 的 。 像 UNIX 操作 系统 ，Windows 主要 采用 C 和 
C++ 编写 。 特 定 架构 的 源 代码 相对 较 少 ， 而 且 汇 编 语 言 代 码 几 乎 没有 。 移 植 Windows 到 新 
的 架构 主要 影响 Windows 内 核 ， 因 为 Windows 的 用 户 模 式 代码 几乎 独立 于 架构 。 为 了 移植 
Windows， 内 核 的 架构 特定 代码 必须 移植 ; 内 核 的 其 他 部 分 ， 由 于 主要 数据 结构 的 变化 ， 如 
页 表格 式 ， 有 时 需要 条 件 编译 。 那 么 整个 Windows 系统 针对 新 的 CPU 指令 集 ， 必 须 重 新 
编译 。 

操作 系统 不 仅 对 CPU 架构 敏感 ， 而 且 对 CPU 支持 芯片 和 硬件 启动 程序 敏感 。CPU 和 支 
持 芯 片 称 为 芯片 组 (chipset)。 这 些 芯片 组 及 相关 引导 代码 确定 如 何 交付 中 断 ， 描 述 每 个 系 
统 的 物理 特征 ， 提 供 CPU 体系 结构 的 更 低层 的 接口 ， 如 错误 恢复 和 电源 管理 。 将 Windows 
移植 到 每 种 支持 芯片 以 及 每 种 CPU 结构 将 是 繁重 的 。 相 反 ，Windows 将 大 多 数 的 芯片 组 
相关 代码 放 到 动态 链接 库 (DLL)， 称 为 硬件 抽象 层 ( Hardware-Abstraction Layer, HAL) ; 
HAL 与 内 核 一 起 加 载 。Windows 内 核 取决 于 HAL 接口 ， 而 非 底层 芯片 组 的 细节 。 这 人 允许 ， 
只 要 通过 加 载 不 同 版 本 的 HAL， 可 以 将 特定 CPU 内 核 与 驱动 程序 二 进 制 文件 的 组 合 ， 用 于 
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不 同 的 芯片 组 。 

ZER, Windows 已 经 移植 到 多 个 不 同 的 CPU 3844: Intel IA-32 兼容 的 32 位 CPU、 
AMD64 3f A Fil 1A64 的 64 位 CPU, DEC Alpha 以 及 MIPS 和 PowerPC 的 CPU. KA BK 
些 CPU 架构 在 市 场 方 面 是 失败 的 。 当 Windows 7 发 布 时 ， 客 户 端 计 算 机 只 支持 IA-32 和 
AMD64 架构 ， 而 服务 器 只 支持 AMD64 和 IA64。 


17.2.7 国际 化 支持 


Windows 专 为 国际 和 跨国 使 用 而 设计 。 它 通过 国际 语言 支持 (National-Language- 
Support, NLS) API 来 支持 不 同 语言 环境 。NLS API 提供 专用 程序 ， 按 照 国家 风俗 习惯 来 格 
式 化 日 期 、 时 间 和 货币 。 字 符 串 的 比较 ,专门 考虑 了 不 同 字符 集 。UNICODE Æ Windows 的 
本 地 字符 代码 。Windows 先 转换 ANSI FFX UNICODE 字符 (8 位 到 16 位 的 转换 )， 再 处 
理 ， 以 支持 ANSI 字 符 。 系 统 文本 字符 串 保 存在 资源 文件 中 ， 以 进行 替换 来 支持 不 同 语言 的 
本 地 化 。 可 以 同时 使 用 多 个 语言 环境 ; 对 于 多 语言 的 个 人 和 企业 ， 这 是 很 重要 的 。 


17.2.8 电源 效率 


计算 机 的 电源 效率 提高 ， 导 致 了 便携 式 电脑 和 上 网 本 的 电池 使 用 时 间 更 长 ， 节 省 了 大 量 
的 数据 中 心 运行 与 冷却 的 成 本 ， 也 有 助 于 由 企业 和 个 人 降低 电源 消耗 的 绿色 举措 。 一 段 时间 
以 来 ，Windows 实现 了 多 种 策略 来 减少 电源 使 用 。 例 如 ，CPU 通过 尽 可 能 地 降低 时 钟 频 率 ， 
移 到 更 低 电源 状态 。 另 外 ， 当 计算 机 没有 正在 活跃 使 用 时 ，Windows 可 以 将 整个 计算 机 放 到 
低 电源 状态 (睡眠 )， 或 者 甚至 可 以 保存 整个 内 存 到 硬盘 ， 并 关闭 计算 机 (休眠 )。 当 用 户 返 
回 时 ,计算 机 上 电 ， 并 从 之 前 的 状态 继续 下 去 ,这 样 用 户 不 需要 重启 计算 机 ， 也 不 需要 重启 
应 用 程序 。 

Windows 7 增加 了 一 些 新 策略 ， 以 节省 电源 。CPU 可 以 保持 不 用 状态 越 长 ， 可 以 节省 
的 电量 越 多 。 因 为 计算 机 比 人 类 快 得 多 ， 当 用 户 在 思考 时 ， 可 以 节省 很 多 电量 。 问 题 是 ， 太 
多 程序 不 断 轮 询 以 查看 系统 发 生 了 什么 。 一 大 堆 软件 定 时 器 一 直 触发 ， 防 止 CPU 太 长 空闲 
以 节省 大 量 电量 。Windows 7 通过 跳 过 时 钟 周期 扩展 CPU 空闲 时 间 ， 合 并 大 量 软件 定时 器 
为 少量 事件 ， 并 且 当 系统 没有 重 载 时 暂停 整个 CPU。 


17.2.9 动态 设备 支持 


对 于 早期 PC， 计算 机 配置 是 相当 静态 的 。 虽 然 有 时 可 能 会 插入 新 的 设备 到 计算 机 背 
面 的 串口 、 并 口 或 游戏 端口 ， 但 是 也 就 这 样 。 动 态 配置 PC 的 下 一 步 是 笔记 本 电脑 底座 和 
PCMIA F. PC 可 能 会 突然 连 到 整个 外 围 设 备 ， 或 断 开 。 对 于 现代 计算 机 ， 情 况 已 经 彻底 改 
变 。 计 算 机 设计 使 得 用 户 始终 能 够 搬 拔 大 量 外 设 ; 外 部 磁盘 、 拇 指 驱动 器 、 相 机 等 都 不 断 来 
来 去 去 。 

Windows 的 设备 动态 配置 支持 不 断 改 进 。 当 设备 插入 时 ， 系 统 可 以 自动 识别 设备 ， 可 
以 找到 、 安 装 和 加 载 适当 的 驱动 程序 而 且 通 常 无 需 用 户 干预 。 当 设备 拔 下 时 ， 驱 动 程序 自动 
印 载 ， 系 统 执行 继续 而 且 不 会 中 断 其 他 软件 。 


17.3 系统 组 件 
Windows 架构 是 个 分 层 模块 系统 ， 如 图 17-1 所 示 。 主 要 层次 是 : HAL、 内 核 和 执行 体 
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(所 有 这 些 按 内 核 模 式 运行 ); 以 及 子 系统 和 服务 ( 按 用 户 模式 运行 )。 用 户 模式 子 系统 分 为 两 
类 : 环境 子 系统 ， 用 于 模拟 不 同 的 操作 系统 ; 保护 子 系统 (protection subsystem), HFHH 
安全 功能 。 这 种 类 型 架构 的 一 个 主要 优点 是 模块 之 间 的 相互 作用 保持 简单 。 本 节 的 其 余部 分 
将 讨论 这 些 层次 和 子 系统 。 





图 17-1 Windows 结构 图 


17.3.1 硬件 抽象 层 


HAL 软件 层 为 操作 系统 的 上 层 而 隐藏 硬件 芯片 组 的 差异 。HAL 为 内 核 调度 程序 、 执 行 
体 和 驱动 程序 导出 虚拟 硬件 接口 。 无 论 可 能 存在 什么 支持 芯片 ， 对 于 每 个 CPU 架构 ， 每 个 
设备 驱动 程序 只 需 一 个 版 本 。 设 备 驱动 程序 映射 设备 并 直接 访问 它们 , 但 是 映射 内 存 、 配 置 
VO 总 线 、 设 置 DMA 以 及 处 理 主板 特定 功能 的 芯片 组 的 特定 细节 都 由 HAL 接口 来 提供 。 


17.3.2 内核 


Windows 内 核 层 有 4 个 主要 职责 : 线程 调度 、 低 级 处 理 器 同步 、 中 断 和 异常 处 理 以 及 
用 户 模 式 和 内 核 模式 之 间 的 切换 。 内 核实 现 采用 C 语言 ， 只 有 绝对 必要 时 才 会 采用 汇编 语 
言 与 硬件 架构 的 最 低层 进行 接口 。 

内 核 采 用 面向 对 象 设计 原则 来 组 织 。Windows 的 对 象 类 型 object type) 是 系统 定义 的 
数据 类 型 ， 它 具有 一 组 属性 (数据 值 ) 和 一 组 方法 Aa, RARE) HR (object) 是 
对 象 类 型 的 一 个 实例 。 内 核 在 执行 作业 时 使 用 一 组 内 核对 象 ; 对 象 的 属性 存储 内 核 数据 而 方 
法 执行 内 核 活动 。 
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17.3.2.1 内 核 调 度 器 

内 核 调度 器 为 执行 体 和 子 系统 提供 了 基础 。 调 度 器 的 大 部 分 不 会 被 调 出 内 存 ， 而 且 它 
的 执行 不 会 被 抢占 。 它 的 主要 责任 有 : 线程 调度 和 上 下 文 切换 、 同 步 原 语 的 实现 、 定 时 器 管 
理 、 软 件 中 断 〈 蜡 步 和 延迟 过 程 调用 ) 以 及 异常 调度 。 
17.3.2.2 ”线程 与 调度 

像 许多 其 他 现代 操作 系统 一 样 ，Windows 执行 代码 使 用 进程 和 线程 。 每 个 进程 都 有 一 
个 或 多 个 线程 ， 而 每 个 线程 都 有 自己 的 调度 状态 ， 包 括 实际 优先 级 、 处 理 器 亲 合 性 和 CPU 
使 用 信息 。 

有 .6 种 可 能 的 线程 状态 : 就 绪 、 待 机 、 运 行 、 等 待 、 转 换 和 终止 。 就 绪 (ready) 表明 了 
线程 正在 等 待 运行 。 最 高 优先 级 的 就 绪 线 程 移 到 待机 ( standby) 状态 ， 这 意味 着 它 是 下 一 个 
运行 线程 。 对 于 多 处 理 器 系统 ， 每 个 处 理 器 保持 一 个 待机 线程 。 当 线程 执行 在 处 理 器 上 时 ， 
它 在 运行 (running)。 它 一 直 运 行 ， 直 到 它 被 更 高 优先 级 线程 抢占 ， 直 到 它 终 止 ， 直 到 它 的 
分 配 执行 时 间 (时 间 片 ) 结束 ， 或 者 它 等 待 调度 器 对 象 ， 例 如 代表 IO 完成 的 事件 。 当 线程 
等 待 调度 对 象 的 信号 时 ， 它 处 于 等 待 (waiting) 状态 。 当 线程 等 待 执行 所 需 的 资源 时 , 它 处 
于 转换 (transition) KAS; 例如 ， 它 可 能 正在 等 待 ， 它 的 内 核 堆栈 从 磁盘 中 调 人 。 当 线程 完 
成 执行 时 ， 它 进入 终止 (terminated) 状态 。 

调度 器 采用 32 级 优先 级 方案 ， 以 确定 线程 执行 顺序 。 优 先 级 分 为 两 类 : 可 变 类 和 实时 
类 。 可 变 类 包括 1 ~ 15 优先 级 的 线程 ， 实 时 类 包括 16 一 31 优先 级 的 线程 。 调 度 器 为 每 个 
调度 优先 级 使 用 一 个 队列 ， 从 高 到 低沉 历 队 列 集合 ， 直 到 找到 就 绪 的 可 运行 线程 。 如 果 一 个 
线程 有 一 个 特定 的 处 理 器 关联 而 且 该 处 理 器 不 可 用 ， 则 调度 器 跳 过 它 ， 继 续 查 找 愿 意 运行 在 
可 用 处 理 器 上 的 一 个 就 绪 线程 。 如 果 没 有 找到 就 绪 线程 ， 则 调度 器 执行 一 个 称 为 空闲 线程 
(idle thread) 的 特殊 线程 。 优 先 级 0 保留 用 于 空闲 线程 。 

当 线 程 时 间 片 用 完 时 ， 时 钟 中 断 会 向 处 理 器 排队 时 间 片 结束 的 延迟 过 程 调用 ( Deferred 
Procedure Call，DPC)。 当 处 理 器 返 到 正常 的 中 断 优先 级 时 ， 排 队 DPC 引起 软件 中 断 。 软 件 
中 断 导 致 调度 器 重新 调度 处 理 器 ， 以 执行 处 于 抢占 线程 优先 级 的 下 个 可 用 线程 。 

在 线程 放 回 到 调度 队列 之 前 ， 抢 占线 程 的 优先 级 可 能 会 被 修改 。 如 果 抢 占线 程 属 于 可 变 
优先 级 类 ， 则 它 的 优先 级 会 降低 。 它 的 优先 级 不 会 降低 到 基础 优先 级 之 下 。 降 低 线 程 优先 级 
往往 限制 计算 密集 型 线程 (与 IO 密集 型 线程 相 比 ) 的 CPU 消耗 。 当 可 变 优先 级 线程 从 等 待 
操作 中 释放 出 来 时 ,调度 器 提高 优先 级 。 提 升 的 数量 取决 于 线程 等 待 的 设备 。 例 如 ， 等 待 键 
BK 1/0 的 线程 会 获得 较 大 的 优先 级 增加 ， 而 等 待 磁盘 操作 的 线程 会 获得 中 等 程度 的 增加 。 这 
个 策略 对 于 使 用 鼠标 和 窗口 的 交互 线程 往往 给 出 很 好 的 响应 时 间 。 它 也 能 使 W/O 密集 型 线程 
PRUE VO 设备 一 直 忙 碌 ; 而 允许 计算 密集 型 线程 使 用 后 台 的 空闲 CPU 周期 。 另 外 ， 与 用 户 
活动 GUI 窗口 关联 的 线程 获得 优先 级 提升 ， 以 增强 响应 时 间 。 

当 线 程 进入 就 绪 或 等 待 状态 时 ， 当 线程 终止 时 ， 或 当 应 用 程序 更 改线 程 优先 级 或 处 理 器 
关联 时 ， 发 生 调 度 。 如 果 在 较 低 优先 级 线程 运行 时 ， 有 一 个 更 高 优先 级 线程 进入 就 绪 状态 ， 
则 较 低 优先 级 线程 就 被 抢占 。 这 个 抢占 允许 更 高 优先 级 线程 优先 访问 CPU。 然 而 ，Windows 
不 是 一 个 硬 实时 操作 系统 ， 因 为 它 没有 保证 ， 实 时 线程 在 某 个 特定 时 间 限 制 内 就 会 开始 执 
47; 当 DPC 与 中 断 服务 程序 OSR) 在 运行 时 (如 下 面 讨论 的 )， 线 程 被 无 限 地 阻塞。 

传统 而 言 ， 操 作 系统 调度 器 使 用 采样 ， 以 测量 线程 的 CPU 使 用 。 系 统 定 时 器 会 定期 触 
发 ， 中 断 处 理 程 序 会 记 下 : 什么 线程 现在 被 调度 ， 当 中 断 发 生 时 这 个 线程 按 用 户 模式 还 是 内 
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核 模式 来 执行 。 这 种 采样 技术 是 必要 的 ， 因 为 CPU 没有 高 分 辨 率 时 钟 ， 或 时 钟 太 贵 ， 或 不 
能 可 靠 地 经 常 访问 。 采 样 虽然 效率 高 ， 但 是 不 精确 ， 导 致 异常 ， 如 将 中 断 服务 时 间作 为 线程 
时 间 、 调 度 只 运行 了 一 小 部 分 时 间 片 的 线程 。 从 Windows Vista 开始 ， 通 过 最 新 处 理 器 的 硬 
件 时 间 戳 计数 器 (TimeStamp Counter, TSC) 可 以 跟踪 Windows 的 CPU 时 间 。 使 用 TSC 导 
致 更 为 准确 的 CPU 使 用 情况 的 计算 ， 调 度 器 在 线程 用 完整 个 时 间 片 之 前 ， 不 会 抢占 它们 。 
17.3.2.3 同步 原 语 的 实现 
重要 操作 系统 数据 结构 按 对 象 来 管理 ， 它 们 采用 公共 工具 来 分 配 、 引 用 计数 和 保证 安 
全 。 调 度 对 象 (dispatcher object) 控制 系统 调度 与 同步 。 这 些 对 象 示例 包括 以 下 : 
© 事件 对 象 (event object)， 用 于 记录 事件 发 生 并 且 同 步 这 个 事件 与 某 个 动作 。 通 知事 
件 发 送信 号 到 所 有 等 待 线 程 ， 而 同步 事件 发 送信 号 到 单个 线程 。 
e mutant 对 象 通过 所 有 权 的 概念 ， 提 供 内 核 模 式 和 用 户 模式 的 互 斥 。 
e ER (mutex) 对 象 ， 只 能 用 于 内 核 模 式 ， 提 供 无 死 锁 的 互 斥 。 
e 信号 量 对 象 (semaphore object) 作为 计数 器 或 门 ， 控 制 访问 某 个 资源 的 线程 数量 。 
o 线程 对 象 ( thread object) 是 由 内 核 调度 器 调度 的 实体 。 它 与 封装 虚拟 地 址 空间 的 进 
程 对 象 相关 联 。 当 线程 退出 时 ， 线 程 对 象 被 发 送信 号 ; 而 当 进程 退出 时 ， 进 程 对 象 
被 发 送信 和 号。 
o 定时 器 对 象 (timer object)， 跟 踪 时 间 ; 当 操 作 时 间 过 长 而 需要 中 断 时 ， 或 者 当 周 期 
活动 需要 调度 时 ， 发 送 超时 信和 号 。 
许多 调度 对 象 可 以 通过 返回 句柄 的 打开 操作 ， 从 用 户 模式 来 访问 。 用 户 模式 代码 轮 询 或 等 待 
句柄 ， 以 便 与 其 他 线程 以 及 操作 系统 进行 同步 ( 见 17.7.1 节 )。 
17.3.2.4 软件 中 断 : 异步 过 程 调 用 与 延迟 过 程 调用 
调度 器 实现 两 种 类 型 的 软件 中 断 : 异步 过 程 调用 (Asynchronous Procedure Call, APC) 
和 延迟 过 程 调用 ( DPC， 前 面 提 到 )。 蜡 步 过 程 调用 中 断 ， 进 入 执行 线程 ， 并 调用 一 个 过 程 。 
APC 用 于 开始 执行 新 的 线程 ， 暂 停 或 恢复 现 有 线程 ， 终 止 线程 或 进程 ， 传 递 异步 VO 的 完成 
通知 ， 以 及 获取 运行 线程 的 CPU 寄存 器 内 容 。APC 排队 添加 到 特定 线程 ， 并 且 允 许 系 统 按 
进程 的 上 下 文 来 执行 系统 和 用 户 的 代码 。APC 的 用 户 模式 执行 不 能 随时 发 生 ， 只 能 当 线 程 
在 内 核 中 等 待 并 标记 为 alertable (警戒 ) 时 才 行 。 
DPC 用 于 延迟 中 断 处 理 。 在 处 理 所 有 紧急 设备 中 断 处 理 之 后 ，ISR 通过 排队 DPC 来 调 
度 剩余 处 理 。 相 关 软 件 中 断 不 会 发 生 ， 除 非 CPU 优先 级 接 下 来 低 于 所 有 IO 设备 中 断 的 优 
先 级 ， 但 高 于 运行 线程 的 优先 级 ， 因 此 ，DPC 不 会 阻止 其 他 设备 的 ISR。 除 了 延迟 设备 中 断 
处 理 外 ， 调 度 器 还 采用 DPC 来 处 理 定时 器 到 期 ， 以 及 在 调度 时 间 片 末尾 时 抢占 线程 执行 。 
DPC 执行 阻止 线程 调度 到 当前 处 理 器 ， 也 阻止 APC AIK VO 完成 信号 。 这 人 么 做 ,使 
得 完成 DPC 程序 无 需 更 多 时 间 。 作 为 替代 ， 调 度 器 维护 一 个 工作 线程 ( worker thread) 池 。 
ISR 和 DPC 可 以 将 工作 项 目 排队 到 工作 线程 ， 这 里 它们 按照 正常 线程 调度 来 执行 。DPC 程 
序 有 些 限 制 : 它们 不 能 出 现 页 面 错误 (被 调 出 内 存 ) ; 调用 系统 服务 ; 或 采取 任何 其 他 动作 ， 
从 而 可 能 试图 导致 等 待 ， 调 度 器 对 象 被 发 送信 号 。 与 APC 不 一 样 ，DPC 程序 不 必 考 虑 : 处 
理 器 正在 执行 进程 的 上 下 文 。 
17.3.25 “异常 与 中 断 
内 核 调度 器 还 提供 了 硬件 或 软件 产生 的 异常 与 中 断 的 陷阱 处 理 。Windows 定义 了 多 个 
架构 无 关 的 异常 ， 包 括 : 
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e 内 存 访问 冲突 

o 整数 溢出 

o 浮 点 洲 出 或 下 洲 

o 整数 除 以 零 

e 浮 点 除 以 零 

。 非法 指令 

e 数据 错位 

e 特权 指令 

e 页 面 读 取 错 误 

e 访问 冲突 

e 超出 分 页 文件 配额 

o 调试 器 断 点 

e 调试 器 单 步 
陷阱 处 理 程序 负责 简单 异常 的 处 理 。 复 杂 异 常 处 理由 内 核 异 常 调度 器 来 执行 。 这 个 异常 调度 
器 (exception dispatcher) 创建 包括 异常 原因 的 异常 记录 ， 并 且 找 到 异常 处 理 程序 来 处 理 它 。 

当 异 常 发 生 在 内 核 模 式 下 时 ， 异 常 调度 器 只 需 调 用 一 个 程序 ， 来 定位 异常 处 理 程序 。 如 
果 没 有 找到 处 理 程 序 ， 则 发 生 致命 系统 错误 ， 而 且 用 户 看 到 臭名 昭著 的 “死机 蓝屏 ”， 表 示 
系统 出 错 。 

用 户 模 式 进程 的 异常 处 理 更 加 复杂 ， 因 为 环境 子 系统 (如 POSIX 系统 ) 为 它 创建 的 每 个 
进程 设置 调试 器 端口 和 异常 端口 。( 有 关 端 口 的 细节 参见 17.3.3.4 节 。) 如 果 调 试 器 端口 已 经 注 [754 
册 ， 则 异常 处 理 程序 发 送 异 常 到 这 个 端口 。 如 果 调 试 器 端口 没有 找到 或 者 不 处 理 这 个 异常 ， 则 
调度 器 试图 找到 一 个 适当 的 异常 处 理 程序 。 如 果 处 理 程序 没有 找到 ， 则 再 次 调用 调试 器 来 捕获 
调试 错误 。 如 果 没 有 调试 器 运行 ， 则 发 送 一 条 消息 到 进程 异常 端口 ， 以 便 让 环境 子 系统 有 机 会 
转换 异常 。 例 如 ，POSIX 环境 首先 转换 Windows 异常 消息 为 POSIX 信和 号， 然后 发 送 它们 到 引 
起 异常 的 线程 。 最 后 ， 如 果 没 有 其 他 工作 ， 则 内 核 简单 终止 ， 包 含 引 起 异常 的 线程 的 进程 。 

当 Windows 无 法 处 理 异 常 时 ， 它 可 以 构造 发 生 错 误 的 描述 ， 并 且 请 求 用 户 许可 来 发 送 
信息 到 Microsoft 以 便 进一步 分 析 。 在 有 些 情况 下 ， 微 软 的 自动 化 分 析 可 以 立即 识别 错误 ， 
并 建议 修复 或 解决 方法 。 

内 核 中 断 调 度 器 的 中 断 处 理 采 用 设备 驱动 程序 提供 的 中 断 服务 程序 CSR) 或 内 核 的 陷 
阱 处 理 程序 。 中 断 的 表示 采用 中 断 对 象 (interrupt object)， 它 包括 中 断 处 理 所 需 的 所 有 信息 。 
采用 中 断 对象 便 于 关联 中 断 处 理 程序 与 中 断 ， 而 无 需 直 接 访 问 中 断 硬件 。 

不 同 处 理 器 架构 具有 不 同类 型 和 不 同 数量 的 中 断 。 为 了 可 移植 性 ， 中 断 调度 器 将 这 些 硬 
件 中 断 映射 到 一 个 标准 集 。 中 断根 据 优先 级 高 低 来 划分 ， 并 按 优先 级 顺序 来 处 理 。Windows 
具有 32 个 中 断 请 求 级 别 (Interrupt ReQuest Level, IRQL). 8 个 专 为 内 核 使 用 ; 其 余 24 个 
代表 通过 HAL 的 硬件 中 断 (尽管 大 多 数 IA-32 系统 仅 使 用 16 个 )。Windows 中 断 的 定义 如 
图 17-2 所 示 。 

内 核 使 用 中 断 调 度 表 (Interrupt-Dispatch Table, IDT) 来 绑 定 每 个 中 断 级 别 到 服务 程序 。 
对 于 多 处 理 器 计算 机 ，Windows 为 每 个 处 理 器 保留 一 个 单独 的 中 断 调度 表 (IDT)， 而 且 每 个 
处 理 器 的 IRQL 可 独立 设置 以 屏蔽 中 断 。 等 于 或 低 于 处 理 器 IRQL 的 所 有 中 断 会 被 阻止 ， 直 
到 IRQL 被 内 核 级 别 线程 或 被 从 中 断 处 理 中 返回 的 ISR 降低 为 止 。Windows 利用 这 个 属性 ， 
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采用 软件 中 断 发 送 APC 和 DPC， 以 执行 系统 功能 ， 如 同步 VO 完成 的 线程 、 启 动 线程 执行 
以 及 处 理 定 时 器 等 。 


中 断 级 别 中 断 类 型 
| aR 
o |an 


处 理 器 间 通 知 (请 求 另 一 个 处 理 器 进行 操作 ; 例如 调度 进程 
或 更 新 TLB) 
Dal 
正 迟 过 程 j 




















3 一 26 传统 PCIRO 硬件 中 断 


| ”| 调度 和 延迟 过 程 调用 (DPC)( 内 核 ) 
| 1 | 异步 过 程 调用 (APC) 
mee. eee 


图 17-2 Windows 的 中 断 请 求 级 别 


17.3.2.6 ”用 户 模 式 线程 与 内 核 模式 线程 的 切换 

程序 员 理 解 的 每 个 传统 Windows 线程 实际 上 是 两 个 线程 : 用 户 模式 线程 (User-mode 
Thread, UT) 和 内 核 模 式 线程 (Kernel-mode Thread，KT)。 每 个 线程 都 有 自己 的 堆栈 、 寄 
存 器 值 和 执行 上 下 文 。UT 通过 执行 一 个 陷入 内 核 模式 的 指令 请 求 系统 服务 。 内 核 层 运行 陷 
阱 处 理 程序 ， 以 在 UT 与 对 应 KT 之 间 切 换 。 当 KT 完成 它 的 内 核 执行 并 切换 到 对 应 UT 时 ， 
内 核 层 被 调用 以 切换 到 UT， 再 继续 在 用 户 模式 下 执行 。 

Windows 7 修改 内 核 层 行为 ， 以 支持 UT 的 用 户 模 式 调度 。Windows 7 用 户 模 式 调度 器 
支持 协调 调度 。 一 个 UT 通过 用 户 模式 调度 器 可 以 显 式 地 让 位 给 另 一 个 UT ; 它 不 必 进 入 内 
核 。 用 户 模式 调度 将 在 17.7.3.7 节 中 加 以 详细 解释 。 


17.3.3 ”执行 体 


Windows 执行 体 提 供 了 一 组 服务 ， 以 供 环境 子 系统 使 用 。 服 务 分 组 如 下 : 对 象 管理 器 、 
虚拟 内 存 管理 器 、 进 程 管理 器 、 高 级 本 地 过 程 调用 工具 、LI/O 管理 器 、 缓 存 管 理 器 、 安 全 引 
用 监视 器 、 即 插 即 用 和 电源 管理 器 、 注 册 表 以 及 引导 等 。 
17.3.3.1 ”对象 管理 器 

为 了 管理 内 核 模 式 实体 ，Windows 采用 一 组 通用 接口 ， 以 供用 户 模 式 程序 使 用 。Windows 
调用 这 些 实体 对 象 ， 管 理 这 些 的 执行 体 组 件 是 对 象 管 理 器 (object manager)。 对 象 的 例子 有 
信号 量 、 互 斥 体 、 事 件 、 进 程 和 线程 ; 所 有 这 些 都 是 调度 器 对 象 (dispatcher object), AF 
可 以 阻塞 在 内 核 调度 器 上 ， 以 等 待 任何 这 些 对 象 被 发 送信 和 号。 进程 、 线 程 和 虚拟 内 存 API 
采用 进程 和 线程 的 句柄 ， 来 识别 需要 操作 的 进程 或 线程 。 其 他 对 象 例子 包括 文件 、 区 段 、 端 
口 和 各 种 内 部 1/O 对 象 。 文 件 对 象 用 于 维护 文件 和 设备 的 打开 状态 。 区 段 (section) 用 于 映 
射 文件 。 本 地 通信 端口 被 实现 为 端口 对 象 。 

用 户 模 式 代 码 通过 称 为 句柄 ( handle) 的 不 透明 值 访 问 这 些 对 象 ; 句柄 可 由 许多 API 返 
回 。 每 个 进程 都 有 一 个 句柄 表 (handle table)， 用 于 包含 跟踪 进程 使 用 对 象 的 实体 。 包 含 内 
核 的 系统 进程 (system process) 有 自己 的 句柄 表 ， 对 于 用 户 代 码 它 是 受 保 护 的 。Windows 句 

柄 表 由 树 结构 表示 ， 可 以 从 持 有 1024 个 句柄 扩展 到 持 有 超过 1600 万 个 。 内 核 模式 代码 可 以 
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时 钟 ( 用 于 跟踪 时 间 ) 
ie 
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使 用 句柄 或 引用 指针 (referenced pointer) 来 访问 对 象 。 

进程 可 以 通过 创建 对 象 、 打 开 现 有 对 象 、 获 得 另 一 进程 的 重复 句柄 、 继 承 父 进程 的 句柄 
等 ,来 获得 句柄 。 当 进程 退出 时 ， 所 有 它 的 打开 句柄 都 会 隐 式 关闭 。 由 于 对 象 管理 器 是 生成 
对 象 句柄 的 唯一 实体 ， 它 自然 用 于 安全 检查 。 对 象 管理 器 检查 进程 在 尝试 打开 对 象 时 是 否 有 
权限 来 访问 对 象 。 通 过 针对 所 有 引用 对 象 占 用 内 存 进 行 计算 ， 以 及 拒绝 分 配 更 多 内 存 以 免 超 
过 进程 配额 ， 对 象 管理 器 也 实现 配额 ， 例 如 进程 可 以 使 用 的 最 大 内 存量 。 

对 象 管理 器 为 每 个 对 象 保留 两 个 计数 : 对 象 句柄 的 数量 和 引用 指针 的 数量 。 对 象 句 柄 计 
数 是 句柄 的 数量 ， 引 用 所 有 进程 (包括 包含 内 核 的 系统 进程 ) 的 句柄 表 的 对 象 。 引 用 指针 计 
数 ， 每 当 内 核 需要 新 指针 时 ， 递 增 ; 每 当 内 核 用 完 指针 时 ， 递 减 。 这 些 引用 计数 的 目的 是 确 
保 ， 当 一 个 对 象 仍然 被 句柄 或 内 部 内 核 指 针 引 用 时 ， 它 不 会 被 释放 。 

对 象 管理 器 维护 Windows 内 部 名 称 空间 。 与 UNIX 相反 (UNIX 系统 名 称 空间 基于 文 
件 系统 )，Windows 使 用 抽象 名 称 空间 ， 并 将 文件 系统 作为 设备 来 连接 。Windows 对 象 是 否 
具有 名 称 ， 取 决 于 它 的 创建 者 。 进 程 和 线程 在 创建 时 没有 名 称 ， 通 过 句柄 或 单独 的 数字 标识 
符 来 引用 。 同 步 事 件 通常 都 有 名 称 ， 所 以 不 相关 的 进程 可 以 打开 它们 。 名 称 可 以 是 永久 的 
或 临时 的 。 永 久 名 称 代表 一 个 实体 ， 例 如 磁盘 驱动 器 ; 即使 没有 进程 访问 ， 这 些 实体 仍然 
存在 。 只 有 进程 持 有 对 象 句 柄 时 ， 这 个 对 象 的 临时 名 称 才 会 存在 。 对 象 管理 器 在 名 称 空间 
中 支持 目录 和 符号 链接 。 例 如 ，MS-DOS 驱动 器 盘 符 使 用 符号 链接 来 实现 ; \Global??\C: 是 
个 符号 链接 ， 用 于 设备 对 象 \ Device\HarddiskVolume2, -表示 在 目录 \Device 中 的 安装 文件 系 
统 卷 。 

如 前 所 述 ， 每 个 对 象 是 对 象 类 型 的 一 个 实例 。 对 象 类 型 指定 如 何 分 配 实例 、 如 何 定义 数 
据 字 段 以 及 如 何 实 现 用 于 所 有 对 象 的 标准 虚拟 函数 集合 。 标 准 函 数 实 现 操作 ， 如 映射 名 称 到 
对 象 、 关 闭 和 删除 以 及 应 用 安全 检查 等 。 实 现 特定 对 象 类 型 的 函数 是 通过 操作 特定 对 象 类 型 
的 系统 服务 ， 而 不 是 通过 对 象 类 型 指定 的 方法 。 

函数 parse O 是 最 有 趣 的 标准 对 象 函 数 。 它 允许 实现 对 象 。 文 件 系统 、 注 册 表 配置 存 
储 和 GUI 对 象 是 函数 parse() 的 最 引 人 注 目的 用 户 ， 用 于 扩展 Windows 名 称 空间 。 

返回 到 Windows 命名 示例 ， 表 示 文 件 系 统 卷 的 设备 对 象 提 供 函 数 parse() 。 这 允许 名 
称 如 \Global??\C:\foo\bardoc， 在 设备 对 象 HardDiskVolume2 表示 的 卷 上 ， 被 解释 成 文件 
\foo\bar.doc。 我 们 通过 分 析 Windows 打开 文件 的 步 又， 说 明 命名 、 解 析 函 数 、 对 象 和 句柄 
等 如 何 一 起 工作 : 

1. 应 用 程序 请 求 打开 文件 C:\foo\bar.doc。 

2. 对 象 管理 器 找到 设备 对 象 HardDiskVolume2， 查 找 对 象 类 型 的 解析 函数 IopParseDevice， 
通过 相对 于 文件 系统 根 的 文件 名 称 来 调用 它 。 

3. IopParseDevice() 分 配 文 件 对 象 ， 并 将 其 传递 到 文件 系统 ， 以 便 填 写 如 何 访问 卷 上 
C:\foo\bar.doc 的 细节 。 

4. 当 文 件 系统 返回 时 ，IopParseDevice() 在 当前 进程 句柄 表 中 分 配 一 个 文件 对 象 的 条 
目 ， 并 返回 句柄 给 应 用 程序 。 

如 果 文 件 不 能 成 功 打开 ，IopParseDevice() 删除 分 配 的 文件 对 象 ， 并 返回 一 个 错误 指 
示 到 应 用 程序 。 
17.3.3.2 ”虚拟 内 存 管理 器 

虚拟 内 存 管理 器 ( Virtual-Memory manager, VM manager) 为 执行 体 组 件 ， 管 理 虚 拟 地 
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址 空间 、 物 理 内 存 分 配 和 分 页 。 设 计 VM 管理 器 ， 假 设 底层 硬件 支持 虚拟 到 物理 映射 、 分 
页 机 制 、 多 处 理 器 系统 的 透明 缓存 一 致 性 以 及 允许 多 个 页 表 条 目 映 射 到 相同 的 物理 页 框 。 
Windows 的 VM 管理 器 使 用 基于 页 面 的 管理 方案 ，AMD64 和 IA-32 兼容 处 理 器 的 页 面 大 小 
为 4KB 和 2MB， 而 IA64 的 页 面 大 小 为 8KB。 分 配给 进程 的 数据 页 面 ， 如 不 在 物理 内 存 中 ， 
或 存储 在 磁盘 的 分 页 文件 (paging file) 中 ,或 直接 映射 到 本 地 或 远程 文件 系统 的 常规 文件 
中 。 页 面 也 可 以 标记 为 按 需 填 零 ， 即 页 面 在 分 配 前 ， 用 零 初 始 化 以 便 清除 之 前 的 内 容 。 

对 于 IA-32 处 理 器 ， 每 个 进程 都 有 一 个 4GB 的 虚拟 地 址 空间 。 高 2GB 对 于 所 有 进程 而 
言 大 部 分 相同 ， 用 于 内 核 模 式 Windows， 以 访问 操作 系统 的 代码 和 数据 结构 。 对 于 AMD64 
架构 ，Windows 从 现 有 硬件 支持 的 16EB 中 ， 为 每 个 进程 的 用 户 模式 提供 8TB 虚拟 地 址 
空间 。 

对 于 所 有 进程 都 不 相同 的 内 核 模 式 区 域 的 关键 area 包括 : 自我 映射 、 超 空间 和 会 话 空 
间 。 硬 件 采 用 物理 页 帧 码 来 引用 进程 页 表 ， 而 页 表 自 我 映射 page table self-map) 使 得 进程 
页 表 内 容 通过 虚拟 地 址 来 访问 。 超 空间 (hyperspace) 映射 当前 进程 工作 集 信 息 到 内 核 模式 
地 址 空间 。 会 话 空间 (session space) 用 于 共享 Win32 和 其 他 特定 会 话 (同一 终端 服务 器 会 
话 的 所 有 进程 的 ) 的 驱动 程序 的 一 个 实例 。 不 同 终端 服务 器 (Terminal Server, TS) 会 话 共 
享 这 些 驱动 程序 的 不 同 实例 ， 但 是 它们 映射 到 相同 的 虚拟 地 址 。 虚 拟 地 址 空间 的 较 低 的 用 户 
模式 区 域 随 进程 而 不 同 ， 而 且 可 由 用 户 模式 和 内 核 模 式 的 线程 来 访问 。 

Windows VM 管理 器 采用 两 个 步骤 来 分 配 虚拟 内 存 。 第 一 步 ， 在 进程 虚拟 地 址 空间 中 保 
留 一 个 或 多 个 虚拟 地 址 页 面 。 第 二 步 ， 通 过 分 配 虚拟 内 存 空间 (物理 内 存 或 分 页 文件 的 空间 ) 
来 提交 分 配 。Windows 采用 分 配 内 存 配额 来 限制 进程 使 用 虚拟 内 存 空间 的 数量 。 进 程 释放 不 
再 使 用 的 虚拟 内 存 ， 以 供 其 他 进程 使 用 。 用 于 预 留 虚拟 地 址 和 分 配 虚拟 内 存 的 API 采 用 一 
个 进程 对 象 句 柄 作为 参数 。 这 人 允许 一 个 进程 控制 另 一 个 进程 的 虚拟 内 存 。 环 境 子 系统 以 这 种 
方式 管理 客户 进程 的 内 存 。 

Windows 通过 定义 区 段 对 象 ( section object) 来 实现 共享 内 存 。 在 获得 区 段 对 象 的 句柄 
后 ， 进 程 映 射 区 段 内 存 到 一 组 地 址 ， 称 为 视图 ( view)。 进 程 可 以 建立 整个 区 段 或 它 所 需 部 
分 的 视图 。Windows 允许 区 段 映 射 到 当前 进程 或 拥有 句柄 的 其 他 进程 。 

区 段 使 用 可 以 有 多 种 方式 。 区 段 可 以 通过 系统 分 页 文件 或 常规 文件 (内 存 映 射 文件 
(memory-mapped file) ) 的 磁盘 空间 来 支持 。 区 段 可 以 有 个 根基 ， 意 味 着 对 于 访问 它 的 所 有 
进程 ， 它 按 同 一 虚拟 地 址 出 现 。 区 段 也 可 以 表示 物理 内 存 ， 允 许 32 位 进程 访问 比 虚拟 地 址 
空间 更 多 的 物理 内 存 。 最 后 ， 区 段 页 面 的 内 存 保护 可 以 设 成 只 读 、 读 写 、 读 写 执行 、 只 可 执 
行 、 无 访问 和 写 时 复制 。 

我 们 仔细 分 析 最 后 两 个 保护 设置 。 

e 当 无 访问 页 面 被 访问 时 引起 异常 。 例 如 ， 蜡 常 可 以 用 于 : 检查 故障 程序 是 否 迭 代 超 

出 数组 的 结尾 ， 或 者 只 是 检测 程序 尝试 访问 未 提交 的 虚拟 地 址 内 存 。 用 户 和 内 核 模 
式 堆 栈 使 用 无 访问 页 面 作为 保护 页 面 ( guard page)， 来 检测 堆栈 液 出 。 另 一 用 途 是 寻 
找 堆 缓冲 区 溢出 。 用 户 模 式 内 存 分 配器 和 设备 验证 器 使 用 的 特殊 内 核 分 配器 ， 可 以 
配置 以 映射 每 个 分 配 到 页 面 末尾 ， 再 跟 上 无 访问 页 面 以 检测 访问 超出 分 配 末 尾 的 编 
程 错误 。 

o 写 时 复制 机 制 使 得 VM 管理 器 更 为 高 效 地 使 用 物理 内 存 。 当 两 个 进程 需要 同一 区 段 

对 和 象 的 各 自 数据 副本 时 ，VM 管理 器 放置 单个 共享 副本 到 虚拟 内 存 ， 并 且 激 活 内 存 区 
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域 的 写 时 复制 属性 。 如 果 其 中 之 一 的 进程 尝试 修改 写 时 复制 页 面 的 数据 ， 则 VM 管 
理 器 为 进程 创建 这 个 页 面 的 私有 副本 。 
Windows 虚拟 地 址 转换 采用 多 级 页 面 表 。 对 于 IA-32 和 AMD64 处 理 器 ， 每 个 进程 都 有 
一 个 页 目录 (page directory)， 包 含 512 个 页 目录 条 目 ( Page-Directory Entry，PDE)， 每 个 
条 目 为 8 字 节 。 每 个 PDE 指向 PTE 表 ， 包 含 512 个 页 表 条 目 (Page-Table Entry，PTE)， 每 
个 条 目 为 8 字 节 。 每 个 PTE 指向 4KB 物理 内 存 的 页 框 或 页 帧 (page frame)。 由 于 种 种 原因 ， 
页 目录 或 多 级 页 表 的 每 级 页 表 占 用 单个 页 面 。 因 此 ， 单 个 页 面 的 PDE ak PTE 数量 决定 了 每 
个 页 面 翻译 了 多 少 虚拟 地 址 。 关 于 这 个 结构 ， 参 见 图 17-3。 


| 


| 


ie 页 面 录 0 


Re F 





图 17-3 ”页 表 布 局 


迄今 为 止 描述 的 结构 只 能 表示 1GB 的 虚拟 地 址 转换 。 对 于 IA-32， 需 要 第 二 级 的 页 
目录 ， 它 只 包含 4 个 条 目 ， 如 图 所 示 。 对 于 64 位 处 理 器 ， 需 要 更 多 级 别 。 对 于 AMD64， 
Windows 总 共 使 用 4 个 级 别 。 完 全 表示 一 个 进程 的 32 位 虚拟 地 址 空间 ， 需 要 的 所 有 页 表 页 
面 的 总 大 小 为 8MB。VM 管理 器 根据 需要 分 配 PDE 和 PTE 的 页 面 ; 当 不 用 时 ， 页 表 页 面 会 
移 到 磁盘 ; 当 引 用 时 ， 页 表 页 面 会 调 到 内 存 。 
接 下 来 ,我 们 考虑 ，IA-32 兼容 处 理 器 如 何 转换 虚拟 地 址 到 物理 地 址 。2 位 值 可 以 表示 
值 0、1、2、3。9 位 值 可 以 表示 0 ~ 511 的 值 ; 12 位 值 表示 0 ~ 4095 的 值 。 因 此 ，12 位 值 
可 以 选择 4KB 内 存 页 面 内 的 任何 字 节 。9 位 值 可 以 表示 页 目录 或 PTE 表 页 面 的 512 个 PDE 
ak PTE 内 的 任何 一 个 。 如 图 17-4 所 示 ， 将 虚拟 地 址 指针 转 到 物理 内 存 内 的 字 节 地 址 ， 涉 及 
将 32 位 指针 分 为 4 个 值 ， 从 最 高 有 效 位 开始 : 
e 2 位 值 ， 用 于 索引 到 页 表 顶 级 的 4 个 PDE。 所 选 PDE 包含 映射 1GB 地 址 空间 的 页 目 
录 页 面 的 物理 页 码 。 

e 9 位 值 ， 用 于 选择 一 个 PDE， 这 次 是 从 第 二 级 页 目录 开始 。 这 个 PDE 会 包含 多 达 
512 个 的 PTE 表 页 面 的 物理 页 码 。 

e 9 位 值 ， 用 于 从 所 选 PTE 表 页 面 中 选择 512 个 PTE 中 的 一 个 。 所 选 PTE 会 包含 访问 
字 节 的 物理 页 码 。 
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e 12 位 值 ， 用 作 页 面 的 字 节 偏 移 。 通 过 附加 虚拟 地 址 的 最 低 12 位 到 所 选 PTE 的 物理 
页 码 ， 可 以 构建 访问 字 节 的 物理 地 址 。 
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图 17-4 IA-32 的 虚拟 地 址 到 物理 地 址 的 转换 


物理 地 址 的 位 数 可 以 不 同 于 虚拟 地 址 的 位 数 。 对 于 原始 IA-32 架构 ，PTE 和 PDE 为 32 
位 结构 ， 而 物理 页 码 只 有 20 位 ， 所 以 物理 地 址 大 小 和 虚拟 地 址 大 小 是 一 样 的 。 这 种 系统 只 
能 处 理 4GB 的 物理 内 存 。 后 来 ，IA-32 扩展 到 现在 使 用 的 更 大 的 64 位 PTE 大 小 ， 而 硬件 支 
FF 24 位 物理 地 址 。 这 些 系统 可 以 支持 64GB， 用 于 服务 器 系统 。 现 在 ， 所 有 Windows 服务 
器 都 是 基于 AMD64 或 IA64， 并 支持 非常 非常 大 的 物理 地 址 ， 远 超 我 们 能 够 使 用 的 。( 当然， 
从 前 ，4GB 似乎 被 乐观 地 认为 是 巨大 的 物理 内 存 。) 

为 了 提高 性 能 ，VM 管理 器 映射 页 目录 和 PTE 表 的 页 面 到 每 个 进程 的 虚拟 地 址 的 同一 
连续 区 域 。 这 种 自我 映射 允许 VM 管理 器 ， 无论 什 么 进程 正在 运行 ， 都 可 采用 相同 指针 来 访 
问 特定 虚拟 地 址 的 当前 PDE 或 PTE。IA-32 自我 映射 pe Haye 8MB 连 
续 区 域 ; AMD64 自我 映射 占用 512GB。 虽 然 自我 映射 占据 了 很 大 的 地 址 空间 ， 它 不 需要 任 
何 额 外 的 虚拟 内 存 页 面 。 它 还 允许 页 表 页 面 ， 自 动 换 进 换 出 物理 内 存 。 

在 创建 自我 映射 时 ， 顶 级 页 目录 有 一 个 PDE， 以 引用 页 目录 页 面 本 身 ， 从 而 在 页 表 转 
换 中 形成 一 个 “循环 " 。 如 果 没 有 经 过 循环 ， 则 访问 虚拟 页 面 ; 如 果 经 过 一 次 循环 ， 则 访问 
PTE 表 页 面 ， 如果 经 过 两 次 循环 ， 则 访问 最 低级 的 页 目录 页 面 ; 等 等 。 

64 位 虚拟 内 存 的 页 目录 的 其 他 级 别 ， 除 了 虚拟 地 址 指针 被 分 成 更 多 值 ， 按 相同 方式 转 
换 。 对 于 AMD64，Windows 使 用 4 个 全 部 级 别 (每 级 映射 512 个 页 面 ) 或 9+9+9+9+ 
12 = 48 位 的 虚拟 地 址 。 

为 了 避免 通过 查找 PDE 和 PTE 来 转换 每 个 虚拟 地 址 的 开销 ， 处 理 器 采用 转 址 旁 路 缓存 
( Translation Look-aside Buffer, TLB) 硬件 ， 它 包含 一 个 关联 内 存 缓存 ， 以 映射 虚拟 页 面 到 
PTE, TLB 是 处 理 器 的 内 存 管理 单元 ( Memory-Management Unit, MMU) 的 一 部 分 。 当 所 
需 转 换 不 在 TLB Pit, MMU 需要 “ 走 ”( 访 问 相 关 数 据 结构 ) 内 存 中 的 页 表 。 

PDE 和 PTE 不 仅 包含 物理 页 码 。 它 们 还 有 一 些 位 ， 专 门 用 于 操作 系统 ; 也 有 一 些 位 ， 
控制 硬件 如 何 使 用 内 存 ， 比 如 硬件 缓存 是 否 应 该 用 于 每 个 页 面 。 另 外 ， 条目 指定 用 户 和 内 核 
模式 允许 什么 访问 类 型 。 

PDE 也 可 以 标记 ， 以 说 明 它 应 该 用 作 PTE 而 非 PDE。 对 于 IA-32， 虚 拟 地 址 指针 的 前 
11 位 ， 用 作 转 换 前 两 级 的 PDE。 如 果 所 选 PDE 标记 为 PTE， 则 指针 的 剩余 21 位 用 作 字 节 
偏 移 。 这 导致 2MB 大 小 的 页 面 。 页 表 中 的 4KB 和 2MB 页 面 大 小 的 混合 与 匹配 ， 对 于 操作 
系统 而 言 很 容易 ; 通过 降低 MMU 多 久 需 要 重 载 TLB 条 目 ， 可 以 明显 改进 程序 性 能 ， 这 是 
因为 一 个 映射 2MB AY PDE 可 以 替换 512 个 映射 4KB 的 PTE. 

然而 ， 管 理 物理 内 存 以 便 如 果 需 要 可 以 采用 2MB 页 面 ， 是 很 难 的 ; 因为 它们 可 能 不 断 
分 成 4KB 页 面 ， 导 致 内 存 碎片 。 另 外 ， 大 的 页 面 可 能 导致 非常 显著 的 内 部 碎片 。 由 于 这 些 
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问题 ， 通 常 只 是 Windows 本 身 以 及 大 型 服务 器 的 应 用 程序 才能 使 用 大 的 页 面 来 提高 TLB 的 
性 能 。 这 么 做 更 为 合适 ， 因 为 操作 系统 和 服务 器 应 用 程序 在 系统 引导 时 开始 运行 (在 内 存 尚 
未 支离破碎 之 前 )。 

Windows 的 物理 内 存 管理 采用 为 每 个 物理 内 存 关 联 7 个 状态 中 的 一 个 : ZSPN. JAS. 6 
改 、 待 命 、 坏 、 转 换 或 有 效 。 

o 空闲 页 面 是 没有 特定 内 容 的 页 面 。 

e 归 零 页 面 是 已 经 清 零 的 空闲 页 面 ， 并 且 已 经 就 绪 可 以 立即 满足 按 需 填 零 的 页 面 错 误 。 

o 修改 页 面 已 经 由 一 个 进程 写 人 ， 在 它 分 配 到 另 一 进程 之 前 必须 发 送 到 磁盘 。 

e 待命 页 面 是 已 经 存储 在 磁盘 上 的 信息 副本 。 待 命 页 面 可 能 是 : 未 修改 的 页 面 已 经 写 

到 磁盘 的 修改 页 面 ， 或 由 于 预计 很 快 就 会 使 用 而 预先 获取 的 页 面 。 

e 坏 页 面 是 不 可 用 的 ， 因 为 硬件 错误 已 经 检测 到 。 

© 转换 页 面 是 正 从 磁盘 转 到 物理 内 存 的 分 配 页 框 。 

© 有 效 页 面 属于 一 个 或 多 个 进程 的 工作 集 ， 并 且 处 在 这 些 进程 的 页 表 中 。 

虽然 有 效 页 面包 含 在 进程 页 表 中 ， 其 他 状态 的 页 面 根据 状态 类 型 可 以 保存 在 各 自 的 列表 
中 。 这 些 列表 通过 链接 页 帧 码 (Page Frame Number, PFN) 数据 库 内 的 条 目 来 构造 ， 在 PFN 
数据 库 中 每 个 物理 内 存 页 帧 都 有 一 个 条 目 。PFN 条 目 也 包括 引用 计数 、 锁 和 NUMA 信息 等 。 
注意 : PFN 数据 库 表示 物理 内 存 的 页 帧 ， 而 PTE 表示 虚拟 内 存 的 页 面 。 

当 PTE 有 效 位 为 零 时 ， 硬 件 忽略 所 有 其 他 位 ，VM 管理 器 可 以 自己 定义 它们 。 无 效 页 
面 可 以 有 多 个 状态 ， 通 过 PTE 的 位 来 表示 。 从 未 出 现 页 面 错误 的 页 面 文件 的 页 面 被 标记 为 
按 需 填 零 。 通 过 区 段 对 象 而 映射 的 页 面 ， 编 码 一 个 指针 以 便 指 向 适当 区 段 对 象 。 已 经 写 到 页 
面 文件 的 页 面 PTE 包含 足够 信息 ， 以 便 定 位 磁盘 上 的 页 面 ， 等 等 。 页 面 文件 PTE 的 结构 如 
图 17-5 所 示 。 对 于 这 种 类 型 的 PTE，T、P 和 YV 位 都 为 零 。PTE 包括 : 5 位 用 于 页 面 保护 、 
32 位 用 于 页 面 文件 偏 移 、4 位 用 于 选择 页 面 文件 以 及 20 位 用 于 其 他 管理 。 
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图 17-5 ”页 面 文件 的 页 表 条 目 。 有 效 位 为 零 


Windows 使 用 每 个 工作 集 的 、 最 近 最 少 使 用 ( LRU) 的 替换 策略 ， 以 便 根据 需要 从 进程 
中 获取 页 面 。 当 进程 开始 时 ， 它 分 得 一 个 默认 的 最 小 尺寸 的 工作 集 。 每 个 进程 的 工作 集 可 以 
增长 ， 直 到 剩余 物理 内 存 数量 开始 变 低 ， 这 时 VM 管理 器 开始 跟踪 每 个 工作 集 的 页 面 时间 。 
最 终 ， 当 可 用 内 存 变 得 极 低 时 ，VM 管理 器 修剪 工作 集 以 便 移 除 更 旧 页 面 。 

页 面 时 间 不 但 取决 于 它 在 内 存 中 已 经 多 久 ， 而 且 取 决 于 它 最 后 一 次 引用 是 何 时 。 页 面 时 
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间 的 确定 是 ， 定 期 扫描 每 个 进程 的 工作 集 ， 增 加 从 上 次 扫描 后 并 未 引用 的 PTE 的 页 面 时 间 。 
当 必须 修剪 工作 集 时 ，VM 管理 器 采用 启发 式 以 决定 每 个 进程 应 该 修剪 多 少 ， 然 后 首先 删除 
最 老 的 页 面 。 

如 果 进 程 对 于 可 以 使 用 多 少 物 理 内 存 有 一 个 硬 限制 (hard limit)， 则 即使 在 有 足够 可 用 
内 存 时 ， 它 的 工作 集 仍 可 以 被 修 前 。 在 Windows 7 中 ， 即 使 内 存 足 够 多 ，VM 管理 器 也 会 修 
剪 快速 增长 的 进程 。 这 种 策略 修改 显著 提高 了 系统 对 其 他 进程 的 响应 能 力 。 

Windows 不 但 跟踪 用 户 模式 的 工作 集 ， 而 且 跟 踪 系 统 进 程 的 工作 集 ; 这 里 系统 进程 包 
括 所 有 可 分 页 的 数据 结构 和 按 内 核 模 式 执 行 的 代码 。Windows 7 创建 系统 进程 的 其 他 工作 集 ， 
并 将 它们 与 特定 类 型 的 内 核 内 存 相 关联 ; 文件 缓存 、 内 核 堆 和 内 核 代 码 现在 也 有 自己 的 工作 
集 。 不 同 的 工作 集 允许 VM 管理 器 使 用 不 同 策略 ， 以 修剪 不 同类 别 的 内 核 内 存 。 

VM 管理 器 不 仅 处 理 立 即 需要 页 面 的 页 面 错 误 。 研 究 表明 ， 线 程 的 内 存 引 用 往往 具有 
局 部 性 (locality) 属性 。 也 就 是 说 ， 当 页 面 被 使 用 时 ， 可 能 在 不 久 的 将 来 ， 相 邻 页 面 会 被 引 
用 。( 想 一 想 ， 迭 代数 组 或 获取 线程 执行 代码 的 顺序 指令 。) 由 于 局 部 性 ， 当 VM 管理 器 处 理 
某 个 页 面 错误 ， 它 也 会 处 理 多 个 相 邻 的 页 面 错 误 。 这 种 预 取 往往 减少 页 面 错误 的 总 数 ， 并 人 允 
许 合并 读 取 以 提高 IO 性 能 。 

除了 管理 提交 的 内 存 之 外 ，VM 管理 器 也 会 管理 每 个 进程 的 预 留 内 存 或 虚拟 地 址 空间 。 
每 个 进程 都 有 一 个 关联 树 ， 以 描述 使 用 虚拟 地 址 的 范围 和 用 途 。 这 人 允许 VM 管理 器 根据 需要 
处 理 页 表 的 页 面 错 误 。 如 果 页 面 错 误 的 PTE 未 初始 化 ， 则 VM 管理 器 在 进程 的 虚拟 地 址 描 
述 符 ( Virtual Address Descriptor, VAD) 树 中 搜索 地 址 ， 采 用 这 个 信息 ， 以 便 填充 PTE 并 
且 获 取 这 个 页 面 。 在 有 些 情况 下 ，PTE 表 页 面 本 身 可 能 不 存在 ; 这 样 一 个 页 面 必须 通过 VM 
管理 器 来 透明 地 分 配 和 初始 化 。 在 其 他 情况 下 ， 页 面 可 以 作为 区 段 对 象 的 部 分 来 共享 ，VAD 
会 包含 这 个 区 段 对 象 的 指针 。 区 段 对 象 包含 如 何 查找 共享 虚拟 页 面 的 信息 ， 这 样 PTE 可 以 
初始 化 ， 以 便 直接 指向 这 个 区 段 对 象 。 
17.3.3.3 ”进程 管理 器 

Windows 进程 管理 器 提供 服务 ， 以 便 创建 、 删 除 和 使 用 进程 、 线 程 和 作业 。 它 没有 关 
于 父子 关系 或 进程 层次 的 知识 ; 这 些 细 节 留 给 了 拥有 进程 的 特定 环境 子 系统 。 进 程 管理 器 也 
没有 参与 进程 调度 ， 除 了 在 创建 进程 和 线程 时 设置 它们 的 优先 级 和 亲 和 性 。 内 核 调度 器 调度 
线程 。 

每 个 进程 包含 一 个 或 多 个 线程 。 进 程 本 身 可 以 组 成 更 大 的 单位 ， 称 为 作业 对 象 (job 
object)。 作 业 对 象 允许 限制 CPU 占用 率 、 工 作 集 大 小 和 同时 控制 多 个 进程 的 处 理 器 亲 和 性 。 
作业 对 象 用 于 管理 大 型 数据 中 心 的 机 器 。 

Win32 环境 创建 进程 的 示例 如 下 : 

1. Win32 应 用 程序 调用 CreateProcess(), 

2. 传递 一 个 消息 到 Win32 子 系统 ， 以 通知 它 创 建 这 个 进程 。 

3. 这 个 进程 的 CreateProcess() 然后 调用 NT 执行 体 的 进程 管理 器 的 一 个 API， 以 便 
真正 创建 进程 。 

4. 进程 管理 器 调用 对 象 管理 器 ， 以 便 创建 进程 对 象 并 且 返 回 对 象 句柄 到 Win32 API。 

5. Win32 再 次 调用 进程 管理 器 ， 以 便 创建 一 个 线程 并 且 返 回 新 进程 和 新 线程 的 句柄 。 

用 于 操作 虚拟 内 存 与 线程 和 用 于 复制 句柄 的 Windows API 都 需 进 程 句 柄 ， 这 样子 系统 
可 以 代表 新 进程 来 执行 操作 ， 而 不 必 直 接 执行 在 新 进程 的 上 下 文中 。 一 旦 新 进程 创建 了 ， 初 
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始 线程 就 被 创建 ， 异 步 过程 调 用 被 传 到 这 个 线程 以 促使 用 户 模式 加 载 程序 开始 执行 。 这 个 加 
载 程序 是 ntdl1.dl1， 这 是 个 链接 库 ， 自 动 地 映射 到 每 个 新 创建 的 进程 。Windows 还 支持 
UNIX fork() 风格 的 进程 创建 ， 以 支持 POSIX 环境 子 系统 。 虽 然 Win32 环境 让 客户 端 进程 
来 直接 调用 进程 管理 器 ， 但 是 POSIX 使 用 Windows API 的 跨 进 程 性 质 来 让 子 系统 进程 创建 
新 进程 。 

进程 管理 器 依赖 于 内 核 层 实现 的 异步 过 程 调用 (APC)。APC 用 于 启动 线程 执行 ， 挂 起 
和 恢复 线程 ， 访 问 线程 寄存 器 ， 终 止 线 程 和 进程 ， 以 及 支持 调试 器 等 。 

进程 管理 器 的 调试 器 支持 包括 API， 以 挂 起 和 恢复 线程 并 创建 处 于 挂 起 模式 的 线程 。 还 
有 进程 管理 器 API， 以 获得 和 设置 线程 寄存 器 的 上 下 文 ， 并 访问 另 一 个 进程 的 虚拟 内 存 。 线 
程 可 以 创建 到 当前 进程 ,也 可 以 注入 另 一 进程 。 调 试 器 利用 线程 注入 ， 以 在 调试 进程 中 执行 
代码 。 

线程 在 执行 时 ， 可 以 暂时 连接 到 不 同 的 进程 。 线 程 连接 (thread attach) 用 于 内 核 工作 线 
程 ， 以 便 根据 需要 按照 请 求 工作 的 进程 的 上 下 文 来 执行 。 例 如 ， 在 需要 访问 进程 的 工作 集 或 
页 表 时 ，VM 管理 器 可 能 使 用 线程 连接 ; 在 更 新 进程 异步 IO 操作 的 状态 变量 时 ，LIO 管理 
器 可 能 使 用 线程 连接 。 

进程 管理 絮 还 支持 假冒 (impersonation)。 每 个 线程 都 有 相关 的 安全 令 牌 security 
token)。 当 登录 进程 认证 用 户 时 ， 安 全 令 牌 被 附加 到 用 户 进程 ， 并 被 子 进程 继承 。 这 个 令 牌 
包含 用 户 的 安全 身份 ( Security IDentity，SID)、 用 户 所 属 组 的 SID、 用 户 拥 有 的 特权 以 及 进 
程 的 完整 性 级 别 。 在 默认 情况 下 ， 进程 内 的 所 有 线程 共享 一 个 公共 令 牌 代表 用 于 启动 进程 
的 用 户 和 应 用 程序 。 然 而 ， 属 于 一 个 用 户 安 全 令 牌 的 、 运 行 在 进程 中 的 一 个 线程 ， 可 以 采用 
男 一 个 用 户 安全 令 牌 ， 以 便 设置 线程 从 而 假冒 新 的 用 户 。 

假冒 功能 是 客户 机 一 服务 器 RPC 模型 的 基础 ， 这 里 服务 必须 代表 具有 不 同安 全 ID 的 不 
同 用 户 来 执行 。 假 冒 用 户 的 权限 ， 最 常 作为 从 客户 机 进程 到 服务 器 进程 的 连接 的 一 部 分 来 传 
递 。 假 冒 允许 服务 器 访问 系统 服务 ， 就 像 客户 机 一 样 访问 或 创建 对 象 和 文件 。 服 务 器 进程 必 
须 值 得 信赖 ， 必 须 慎重 编写 以 便 面 对 攻击 仍然 足够 强壮 。 和 否则 ， 一 个 客户 机 可 以 接管 一 个 服 
务 器 进程 ， 然 后 冒充 后 续 客 户 请 求 的 任何 用 户 。 
17.3.3.4 客户 机 - 服务 器 计算 的 工具 

Windows 实现 完全 采用 客户 机 - 服务 器 模型 。 环 境 子 系统 属于 服务 器 ， 用 于 实现 特定 
操作 系统 的 个 性 。 很 多 其 他 服务 ， 如 用 户 认证 、 网 络 功能 、 打 印 机 后 台 打 印 、Web 服务 、 网 
络 文件 系统 和 即 插 即 用 ， 也 使 用 这 个 模型 来 实现 。 为 了 减少 内 存 占用 ， 多 个 服务 通常 合成 少 
数 几 个 运行 程序 svchost .exe 的 进程 。 每 个 服务 按 用 户 模 式 动 态 链接 库 (DLL) 来 加 载 ， 而 
服务 实现 依赖 用 户 模式 线程 池 功 能 ， 以 便 共享 线程 和 等 待 消息 (参见 17.3.3.3 节 )。 

客户 机 一 服务 器 计算 的 正常 实施 范例 是 采用 RPC 来 传达 请 求 。Win32 API 支持 标准 
RPC 协议 ， 如 17.6.2.7 节 所 述 。RPC 使 用 多 个 传输 (例如 ,命名 管道 和 TCP/IP)， 并 且 可 
以 用 于 实现 系统 之 间 的 RPC。 当 RPC 总 是 发 生 在 本 地 系统 的 客户 端 和 服务 器 之 间 ， 高 级 本 
地 程序 调用 ( Advanced Local Procedure Call, ALPC) 可 以 用 作 传 输 。 在 系统 的 最 低层 ， 环 
境 系统 的 实现 以 及 对 于 早期 引导 阶段 需要 的 可 用 的 服务 等 ，RPC 是 不 可 用 的 。 相 反 ， 本 地 
Windows 服务 直接 使 用 ALPC。 

ALPC 是 一 种 消息 传递 机 制 。 服 务 器 进程 发 布 一 个 全 局 可 见 的 连接 端口 对 象 。 当 客户 想 
要 访问 子 系统 或 服务 时 ， 它 打开 服务 器 的 连接 端口 对 象 ， 并 发 送 连接 请 求 到 这 个 端口 。 服 务 
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器 创建 一 个 通道 并 返回 一 个 客户 句柄 。 这 个 通道 包括 一 对 私有 通信 端口 : 一 个 用 于 服务 器 到 
客户 机 的 消息 ， 而 另 一 个 用 于 客户 机 到 服务 器 的 消息 。 通 信 通 道 支持 回调 机 制 ， 这 样 客户 机 
和 服务 器 在 通常 期 待 答复 时 可 以 接受 请 求 。 
在 创建 ALPC 信道 时 ， 可 以 选择 以 下 三 种 消息 传递 技术 : 
e 第 一 种 技术 适用 于 小 到 中 等 的 消息 (最 多 到 63KB )。 在 这 种 情况 下 ， 端 口 的 消息 队 
列 用 作 中 间 存 储 ， 并 且 消 息 可 以 从 一 个 进程 复制 到 另 一 个 。 
e 第 二 种 技术 用 于 更 大 的 消息 。 在 这 种 情况 下 ， 每 个 通道 创建 共享 内 存 区 段 对 象 。 通 
过 端口 消息 队列 而 发 送 的 消息 ， 包 括 引 用 区 段 对 象 的 指针 和 大 小 信息 。 这 样 可 以 避 
免 复制 大 的 消息 。 发 送 方 将 数据 放 到 共享 区 段 ， 接 收 方 直接 查看 它们 。 
o 第 三 种 技术 使 用 API 来 直接 读 写 进程 的 地 址 空间 。ALPC 提供 函数 和 同步 ， 使 得 服务 器 
可 以 访问 客户 机 中 的 数据 。 这 种 技术 通常 用 于 RPC， 以 实现 针对 特定 场景 的 更 高 性 能 。 
Win32 窗口 管理 器 采用 自己 形式 的 消息 传递 ， 它 独立 于 执行 体 ALPC 功能 。 当 客户 端 
请 求 使 用 窗口 管理 器 消息 传递 的 连接 时 ， 服 务 器 设置 三 个 对 象 : 专用 服务 器 线程 ， 用 于 处 理 
HR; 64KB 共享 区 段 对 象 ; 事件 对 对 象 。 事 件 对 对 象 (event-pair object) 是 Win32 子 系统 
的 同步 对 象 ， 以 便 在 客户 线程 与 Win32 服务 器 之 间 复 制 消 息 时 提供 通知 。 区 段 对 象 用 于 提 
供 消 息 ， 而 事件 对 对 象 提 供 同步 。 
窗口 管理 器 的 消息 传递 有 多 个 优点 : 
e 区 段 对 象 消 除了 消息 复制 ， 因 为 它 表 示 共 享 内 存 的 区 域 。 
o 事件 对 对 象 消 除了 使 用 端口 对 象 传递 包含 指针 和 长 度 的 消息 的 开销 。 
e 专用 服务 器 线程 消除 了 确定 哪个 客户 线程 正在 调用 服务 器 的 开销 ， 因 为 每 个 客户 线 
程 都 有 一 个 服务 器 线程 。 
© 内 核 给 予 这 些 专用 服务 器 线程 更 高 的 优先 级 ， 以 改进 性 能 。 
17.3.3.5 /0 管理 器 
I/O 管理 器 (VO manager) 负责 文件 系统 、 设 备 驱动 程序 以 及 网 络 驱动 程序 。 它 跟踪 哪 
些 设 备 驱 动 程序 、 过 滤 驱 动 程 序 和 文件 系统 被 加 载 ， 而 且 它 也 管理 IO 请 求 的 缓冲 区 。 它 
与 VM 管理 器 配合 使 用 以 提供 内 存 映射 文件 TO ， 而 且 控 制 Windows 缓存 管理 器 以 处 理 整 个 
VO 系统 的 缓存 。1/O 管理 器 本 质 上 是 异步 的 ， 通 过 显 式 等 待 IO 操作 的 完成 来 提供 同步 IO。 
IO 管理 器 提供 多 种 模型 的 异步 IO 完成 ， 包 括 : 设置 事件 ， 更 新 调用 进程 的 状态 变量 ， 传 
BB APC 到 启动 线程 ， 使 用 IO 完成 端口 (以 允许 单个 线程 来 处 理 多 个 其 他 线程 的 IO 完成 )。 
每 个 设备 有 一 个 列表 来 组 织 设 备 驱 动 程 序 ( 称 为 驱动 栈 或 1/0 栈 )。 了 驱动 程序 在 系统 中 
表示 为 驱动 对 象 (driver object)。 因 为 单个 驱动 程序 可 以 操作 多 个 设备 ，1/O 栈 内 的 设备 驱 
动 程序 表示 为 设备 对 象 ( device object)， 而 设备 对 象 包含 驱动 程序 对 象 的 链接 。1/O 管理 器 
转换 收 到 请 求 ， 称 为 I/O 请 求 分 组 (IO Request Packet，IRP) )， 转 成 标准 形式 。 然 后 ， 它 转 
发 IRP 到 目标 IO 栈 中 的 第 一 个 驱动 程序 ， 以 便 处 理 。 驱 动 程序 在 处 理 了 IRP 之 后 ， 或 者 转 
发 IRP 到 堆栈 中 的 下 一 个 驱动 程序 ， 或 者 完成 IRP 代表 的 操作 〈 如 果 所 有 处 理 都 已 完成 )。 
VO 请 求 可 以 按 不 同 于 原来 的 上 下 文 来 完成 。 例 如 ， 如 果 驱 动 程序 在 执行 IO 操作 部 分 
时 被 迫 阻 塞 过 长 时 间 ， 则 它 可 能 排队 IRP 到 工作 线程 ， 以 继续 按 系 统 上 下 文 来 处 理 。 在 原来 
的 线程 中 ， 驱 动 程序 返回 一 个 状态 ， 指 示 IO 请 求 正 在 等 待 ， 因 此 这 个 线程 可 以 与 IO 操作 
继续 并 行 执行 。IRP 也 可 以 在 中 断 处 理 程序 中 处 理 ， 并 按 任意 进程 的 上 下 文 来 完成 。 因 为 有 
的 最 后 处 理 可 能 需要 在 启动 I/O 的 上 下 文中 进行 ，IO 管理 器 使 用 APC， 以 在 原先 线程 的 进 
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程 上 下 文中 完成 最 后 的 IO。 

VO 栈 模型 非常 灵活 。 随 着 驱动 程序 堆栈 的 构建 ， 各 种 驱动 程序 有 机 会 将 自己 作为 过 滤 
驱动 程序 ( filter-driver) 嵌入 堆栈 。 过 滤 驱 动 程序 可 以 检查 ， 并 可 能 修改 每 个 IO 操作 。 安 
装 管理 、 分 区 管理 和 磁盘 分 条 / 镜像， 都 是 通过 (在 堆栈 中 的 文件 系统 之 下 执行 ) 过 滤 驱 动 
程序 实现 功能 的 示例 。 文 件 系统 过 滤 驱 动 程序 运行 在 文件 系统 之 上 ， 并 且 已 实现 了 许多 功 
能 ， 如 分 层 存储 管理 、 远 程 启动 的 文件 的 单个 实例 以 及 动态 格式 转换 。 第 三 方 也 使 用 文件 系 
统 过 滤器 驱动 程序 来 实现 病毒 检测 。 

Windows 设备 驱动 程序 ， 按 Windows 驱动 程序 模型 ( Windows Driver Model, WDM) 
规范 来 编写 。 这 个 模型 列 出 了 设备 驱动 程序 的 所 有 要 求 ， 包 括 如 何 分 层 过 滤 驱 动 程序 、 共 享 
公用 代码 以 处 理 电源 和 即 插 即 用 请 求 、 构 造 正 确 的 取消 逻辑 ， 等 等 。 

由 于 WDM 非常 复杂 ， 为 新 的 硬件 设备 编写 一 个 完整 的 WDM 设备 驱动 程序 可 能 涉及 
大 量 工作 。 幸 运 的 是 ， 端 日 /微型 端口 模型 不 必 这 么 做 。 对 于 相似 类 型 的 设备 ， 如 声卡 、 
SATA 设备 或 Ethernet 控制 器 ， 每 个 设备 实例 共享 该 类 的 公共 驱动 程序 ， 称 为 端口 驱动 程序 
(port driver)。 端 口 驱动 程序 实现 一 个 类 型 的 标准 操作 ; 然后 调用 位 于 设备 的 微 端 口 驱动 程 
FF (miniport driver) 中 设备 特定 程序 ， 以 便 实现 设备 特定 功能 。TCP/IP 网 络 堆栈 就 是 这 样 
实现 的 ; 采用 ndis.sys 类 型 驱动 程序 实现 大 部 分 网 络 驱动 程序 功能 ， 并 且 调 用 微 端 口 驱 动 
程序 以 处 理 特定 硬件 。 

最 新 版 本 的 Windows (包括 Windows 7 ) 为 编写 硬件 设备 的 设备 驱动 程序 提供 了 进 一 
步 的 简化 。 内 核 模 式 驱动 程序 现在 可 以 使 用 内 核 模 式 驱动 程序 框架 ( Kernel-Mode Driver 
Framework，KMDF)， 它 在 WDM 之 上 提供 了 一 个 简化 的 驱动 程序 编程 模型 。 另 一 个 选项 是 
用 户 模式 驱动 程序 框架 ( User-Mode Driver Framework，UMDF)。 许 多 驱动 程序 不 必 在 内 核 
模式 下 运行 ， 而 且 用 户 模式 驱动 程序 的 开发 与 部 署 更 加 容易 。 它 还 使 系统 更 可 靠 ， 因 为 用 户 
模式 驱动 程序 的 故障 不 会 引起 内 核 模式 崩 演 。 
17.3.3.6 ”缓存 管理 器 

对 于 许多 操作 系统 ， 缓 存 由 文件 系统 完成 。 不 过 ，Windows 提供 了 集中 缓存 功能 。 绥 
存 管理 器 (cache manager) 与 VM 管理 器 紧密 合作 ， 为 IO 管理 器 控制 的 所 有 组 件 提供 缓存 
服务 。Windows 缓存 是 基于 文件 的 ， 而 不 是 生 块 (raw block) 的 。 缓 存 大 小 根据 系统 现 有 空 
闲 内 存 的 多 少 而 动态 调整 。 缓 存 管 理 器 维护 私有 工作 集 ， 而 不 是 共享 系统 进程 的 工作 集 。 缓 
存 管 理 器 将 文件 内 容 内 存 映 射 到 内 核 内 存 ， 然 后 采用 VM 管理 器 的 特殊 接口 来 处 理 私 有 工作 
集 的 页 面 错误 或 修剪 私有 工作 集 。 

缓存 按 256KB 的 块 来 划分 。 每 个 缓存 块 都 可 以 保存 文件 的 视图 ( 即 内 存 映射 区 域 )。 每 
个 缓存 块 的 描述 采用 虚拟 地 址 控制 块 (Virtual-Address Control Block, VACB) 以 存储 视图 的 
虚拟 地 址 和 文件 偏 黎 ， 以 及 使 用 视图 的 进程 数 。 VACB 位 于 由 缓存 管理 器 维护 的 单个 数组 中 。 

当 10 管理 器 接收 到 文件 的 用 户 级 别 读 取 请 求 时 ，I/O 管理 器 发 送 IRP 到 文件 所 在 卷 的 
IO 堆栈 。 对 于 标记 为 可 缓存 的 文件 ， 文 件 系统 调用 缓存 管理 器 ， 以 在 缓存 文件 视图 中 查找 
请 求 数据 。 缓 存 管 理 器 计算 文件 的 VACB 索引 数据 的 哪个 条 目 对 应 于 请 求 的 字 节 偏 移 。 这 
个 条 目 或 指向 缓存 条 目 或 是 无 效 的 。 如 果 它 是 无 效 的 ， 则 缓存 管理 器 分 配 一 个 缓存 块 (和 
VACB 数组 中 的 对 应 条 目 )， 并 映射 视图 到 缓存 块 。 然 后 ,缓存 管理 器 尝试 复制 映射 文件 的 
数据 到 调用 者 的 缓冲 区 。 如 果 复 制 成 功 ， 则 操作 完成 。 

如 果 复 制 失败 ， 则 这 是 由 于 缺 页 错误 ， 它 导致 VM 管理 器 来 发 送 非 缓存 的 读 请 求 到 IO 
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管理 器 。IO 管理 器 发 送 另 一 请 求 到 驱动 程序 堆栈 ， 这 次 请 求 一 个 调 页 操作 ; 它 绕 过 缓存 管 
理 器 ， 并 直接 读 取 文 件数 据 到 缓存 管理 器 分 配 的 页 面 。 完 成 后 , VACB 设置 指向 页 面 。 数 据 ， 
现在 已 在 缓存 中 ， 被 复制 到 调用 者 的 缓冲 区 ， 这 样 原 来 VO 请 求 就 完成 了 。 图 17-6 概述 了 
这 些 操作 。 






IO |1/0 管 理 器 


he? is F <= 
ities ees 


Fl 17-6 文件 IO 


内 核 级 的 读 操作 是 类 似 的 ， 除 了 数据 现在 可 以 从 缓存 中 直接 访问 ， 而 不 必 复 制 到 用 户 空 
间 的 缓冲 区 。 为 了 使 用 文件 系统 元 数据 (描述 文件 系统 的 数据 结构 )， 内 核 通 过 缓存 管理 絮 
的 映射 接口 来 读 取 元 数据 。 为 了 修改 元 数据 ， 文 件 系统 使 用 缓存 管理 器 的 固定 接口 (pinning 
interface)。 固 定 页 面 锁定 页 面 到 物理 内 存 页 框 ， 以 便 VM 管理 器 无 法 移动 或 调 出 页 面 。 更 
新 元 数据 后 ， 文 件 系统 请 求 缓存 管理 不 再 固定 页 面 。 修 改 页 面 标记 为 脏 页 ， 以 便 VM 管理 器 
刷新 这 些 页 面 到 磁盘 。 

为 了 提高 性 能 ， 缓 存 管理 器 保存 一 小 段 历史 的 读 取 请 求 ， 并 且 根 据 这 个 历史 尝试 预测 未 
来 要 求 。 如 果 缓 存 管理 器 在 之 前 的 三 个 请 求 中 发 现 了 一 个 模式 ， 如 顺序 向 前 或 向 后 访问 ， 则 
在 应 用 程序 提交 下 个 请 求 之 前 ， 它 将 数据 预 取 到 缓存 中 。 这 样 ， 应 用 程序 就 可 能 找到 已 经 组 
存 的 数据 ， 而 无 需 等 待 磁盘 IO, 

缓存 管理 器 还 负责 通知 VM 管理 器 ， 以 刷新 缓存 内 容 。 缓 存 管理 器 的 默认 行为 是 回 写 
( write-back) 缓存 : 它 首先 累积 4 一 5 秒 的 写 信 ， 然 后 唤醒 缓存 写 人 的 线程 。 当 需要 直 写 
(write-through) 缓存 时 ， 进 程 在 打开 文件 时 可 以 设置 标志 ， 或 者 进程 可 以 调用 显 式 缓存 刷新 
函数 。 

在 缓存 写 人 线程 有 机 会 醒 来 并 刷新 页 面 到 磁盘 之 前 ， 快 写 进 程 可 能 填 满 所 有 空闲 缓存 
页 面 。 缓 存 写 和信 程 序 防止 进程 通过 以 下 方式 淹没 系统 。 当 空闲 缓存 内 存 数量 变 低 时 ,缓存 
管理 器 临时 阻塞 进程 试图 写 人 数据 ， 并 唤起 缓存 写 人 线程 以 刷新 页 面 到 磁盘 。 如 果 快 写 进 
程 实际 是 个 网 络 文件 系统 的 重 定向 器 ， 阻 塞 太 久 会 引起 网 络 传输 超时 与 重 传 。 这 种 重 传 可 
能 浪费 网 络 带宽 。 为 了 防止 这 种 浪费 ， 网 络 重 定向 器 可 以 指示 缓存 管理 器 限制 缓存 内 的 积压 
Br». 

因为 网 络 文件 系统 需要 在 磁盘 和 网 络 接口 之 间 移 动 数据 ， 所 以 缓存 管理 器 也 提供 了 
DMA 接口 ， 以 便 直 接 移动 数据 。 直 接 移动 数据 避免 通过 中 间 缓 冲 区 复制 数据 的 需要 。 
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17.3.3.7 ”安全 引用 监视 器 

对 象 管理 器 的 系统 实体 的 集中 管理 使 得 Windows 能 够 采用 统一 机 制 ， 对 每 个 用 户 可 访 
问 的 系统 实体 以 执行 运行 时 的 访问 验证 与 审核 检查 。 每 当 进 程 打开 对 象 句柄 时 ， 安 全 引用 监 
视 器 (Security Reference Monitor, SRM) 检查 进程 的 安全 令 牌 与 对 象 的 访问 控制 列表 ， 从 
而 确定 进程 是 否 具 有 必要 的 访问 权限 。 

SRM 也 负责 操作 安全 令 牌 的 特权 。 用 户 需 要 特权 ， 以 便 执行 文件 系统 的 备份 或 恢复 操 
作 与 调试 进程 等 。 令 牌 也 可 以 通过 标记 来 限制 特权 ， 这样 它们 无 法 访问 大 多 数 用 户 可 用 的 对 
象 。 限 制 令 牌 主要 用 于 限制 不 可 靠 代 码 执行 的 损坏 。 进 程 执行 代码 的 完整 性 级 别 也 由 令 牌 表 
示 。 如 前 所 述 ， 完 整 性 级 别 是 一 种 能 力 机 制 。 无 论 其 他 权限 是 否 已 被 授予 ， 进 程 无 法 修改 更 
高 完整 性 级 别 的 对 象 。 通 过 引入 完整 性 级 别 ， 攻 击 面 向 外 界 软件 (如 Internet Explorer) 的 代 
人 码 ， 更 难 接管 系统 。 

SRM 的 另 一 责任 是 记录 安全 审计 事件 。 美 国 国防 部 的 共同 准则 (Common Criteria) OE 
皮 书 的 后 续 〈2005 年 )) 要 求 ， 安 全 系统 能 够 检测 和 记录 访问 系统 资源 的 所 有 尝试 ， 以 便 更 
加 容易 跟踪 越权 访问 企图 。 因 为 SRM 负责 执行 访问 检查 ， 所 以 它 在 安全 事件 日 志 中 生成 大 
部 分 的 审计 记录 。 
17.3.3.8 即 插 即 用 管理 器 

操作 系统 使 用 即 插 即 用 (Plug-and-Play，PnP) 管理 器 来 识别 并 适应 硬件 配置 的 变化 。 
即 插 即 用 设备 使 用 标准 协议 向 系统 标识 自己 。 在 系统 运行 时 , PnP 管理 器 自动 识别 安装 设备 ， 
并 检测 设备 的 更 改 。 管 理 器 还 跟踪 设备 使 用 的 硬件 资源 以 及 可 能 要 用 的 资源 ， 也 负责 加 载 相 
应 的 驱动 程序 。 硬 件 资源 (主要 是 中 断 和 IO 内 存 范围 ) 的 这 种 管理 的 目标 是 ， 确 定 所 有 设 
备 能 够 正确 运行 的 硬件 配置 。 

PnP 管理 器 按 如 下 方式 处 理 动态 重新 配置 。 首 先 ， 它 从 每 个 总 线 驱动 程序 (例如 ，PCI 
或 USB) 获得 设备 列表 。 它 加 载 已 安装 的 驱动 程序 (找到 一 个 ， 如 果 必 要 )， 发 送 请 求 add- 
device (增加 设备 ) 到 每 个 设备 的 驱动 程序 。 然 后 ，PnP 管理 器 算出 最 佳 资源 分 配 ， 发 送 请 
求 start-device (开始 设备 ) 到 每 个 驱 驱 动 程序 并 指定 设备 的 资源 分 配 。 如 果 设 备 需 要 重 
新 配置 ， 则 PnP 管理 器 发 送 请 求 query-stop (停止 查询 )， 询 问 驱 动 程序 是 否 可 以 暂时 禁用 
设备 。 如 果 驱 动 程序 可 以 禁用 设备 ， 则 完成 所 有 待 处 理 的 操作 ， 并 且 阻 止 启动 新 的 操作 。 最 
Ja, PnP 管理 器 发 送 请 求 stop (停止 )， 接 着 可 以 通过 新 的 请 求 start-device 来 重新 配置 
设备 。 

PnP 管理 器 还 支持 其 他 请 求 。 例 如 ， 当 用 户 准 备 弹出 可 移动 设备 ， 如 USB 存储 设备 ， 
可 以 使 用 query-remove ( 移 除 查 询 )， 其 执行 类 似 于 query-stop。 当 设备 故障 ， 或 者 更 有 
可 能 的 是 ， 当 用 户 删 除 设备 而 没有 事先 通知 系统 停止 它 ， 就 使 用 请 求 surprise-remove ( 移 
除 惊奇 )。 最 后 ， 请 求 remove (WR) 告诉 驱动 程序 ， 以 便 永 久 停止 使 用 设备 。 

系统 中 的 许多 程序 都 对 添加 或 删除 设备 感 兴趣 ， 因 此 PnP 管理 器 支持 通知 。 例 如 ， 这 
种 通知 为 GUI 文件 菜单 提供 了 在 增加 或 移 除 新 存储 设备 时 ， 更 新 磁盘 卷 列表 的 所 需 信 息 。 
安装 设备 通常 会 向 系统 中 的 svchost.exe 进程 添加 新 的 服务 。 即 使 原始 设备 从 未 插入 系统 ， 
这 些 服务 也 会 频繁 地 设置 为 在 系统 引导 时 就 运行 并 一 直 运 行 。Windows 7 引入 服务 触发 
(service-trigger) 机 制 到 服务 控制 管理 器 (Service Control Manager，SCM)， 以 便 管理 系统 服 
务 。 通 过 这 种 机 制 ， 服 务 可 以 注册 自己 : 仅 当 SCM 收 到 PnP 管理 器 的 通知 ， 即 有 兴趣 的 设 
备 被 添加 到 系统 ， 才 能 启动 。 
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17.3.3.9 电源 管理 器 

Windows 与 硬件 一 起 工作 ， 以 便 实 现 电 源 效率 的 复杂 策略 ， 如 17.2.8 节 所 述 。 这 些 策 
略 是 由 电源 管理 器 来 实现 的 。 电 源 管理 器 ( power manager) 检测 当前 系统 条 件 ， 如 CPU 或 
IO 设备 的 负载 ， 通 过 当 需 求 低 时 降低 系统 性 能 和 响应 能 力 改善 电源 效率 。 电 源 管理 器 也 可 
以 让 整个 系统 进入 非常 有 效 的 睡眠 模式 ， 甚 至 可 以 写 出 所 有 内 存 内 容 到 磁盘 ， 并 关闭 电源 以 
允许 系统 进入 休眠 。 

睡眠 的 主要 优点 是 ， 系 统 可 以 相当 快 地 人 睡 ， 也 许 只 是 在 笔记 本 电脑 的 盖子 关闭 后 的 几 
秒 钟 。 从 睡眠 的 返回 也 相当 快 。CPU 和 LO 设备 的 电源 会 降低 ， 但 是 内 存 电源 还 是 足以 确保 
它 的 内 容 不 会 丢失 。 

休眠 需要 更 长 时 间 ， 因 为 在 系统 关闭 之 前 ， 内 存 的 整个 内 容 必 须 首先 转移 到 磁盘 。 然 
而 ， 事 实 上 ， 系 统 关 闭 这 个 事实 是 一 个 重要 优点 。 如 果 系 统 掉 电 ， 如 笔记 本 电脑 的 电池 被 换 
掉 或 者 桌面 计算 机 的 电源 被 拔 掉 ， 则 保存 的 系统 数据 不 会 委 失 。 与 关机 不 同 ， 体 眠 保存 当前 
正在 运行 的 系统 ， 这 样 用 户 可 以 从 离开 之 处 恢复 ; 而 且 因为 休眠 不 需要 电源 ， 系 统 可 以 无 限 
地 保持 休眠 。 

与 PnP 管理 器 一 样 ， 电 源 管理 器 将 电源 状态 改变 的 通知 提供 给 系统 的 其 余部 分 。 有 些 
应 用 程序 需要 知道 何 时 应 当 关 闭 系 统 ， 以 便 它 们 可 以 开始 保存 状态 到 磁盘 。 
17.3.3.10 TERR 

Windows 保存 大 部 分 配置 信息 到 内 部 数据 库 ， 称 为 配置 单元 (hive) ; 它 由 Windows 管 
理 器 (通常 称 为 注册 表 (registry) ) 来 管理 。 系 统 信息 、 默 认 用 户 选 项 、 软 件 安装 、 安 全 和 
启动 选项 等 ， 都 有 单独 的 配置 单元 。 因 为 系统 配置 单元 (system hive) 的 信息 用 于 启动 系统 ， 
注册 表 管 理 器 作为 执行 体 的 组 件 来 实现 。 

每 个 配置 单元 的 配置 状态 的 注册 表 表 示 ， 采 用 基于 键 (目录 ) 的 层次 命名 空间 ， 每 个 键 
可 以 包含 一 组 类 型 的 值 ， 如 UNICODE 字符 串 、ANSI 字 符 串 、 整 数 或 无 类 型 的 二 进 制 数据 。 
理论 上 ， 新 的 键 和 值 在 安装 新 的 软件 时 被 创建 和 初始 化 ; 它们 以 后 被 修改 ， 以 便 反映 软件 配 
置 的 变化 。 实 际 上 ， 注 册 表 通常 用 作 : 通用 数据 库 、 进 程 间 通 信 机 制 以 及 许多 其 他 此 类 的 新 
mA. 

每 次 系统 配置 更 改 时 ， 重 启 应 用 程序 或 系统 会 是 麻烦 的 。 作 为 蔡 代 ， 程 序 依 赖 于 各 种 通 
知 ， 如 那些 由 PnP 和 电源 管理 器 提供 的 ， 来 获得 系统 配置 变更 。 注 册 表 也 提供 通知 ; 它 允 许 
线程 注册 ， 以 便 在 注册 表 的 某 个 部 分 被 更 改 时 得 到 通知 。 因 此 ， 线 程 可 以 检测 和 适应 注册 表 
本 身 记 录 的 配置 更 改 。 

每 当 系 统 发 生 重大 改变 时 ， 如 当 操 作 系 统 或 驱动 程序 的 更 新 被 安装 时 ， 存 在 配置 数据 可 
能 损坏 的 危险 (例如 ， 如 果 能 够 工作 的 驱动 程序 被 不 能 工作 的 所 替换 ,或 者 应 用 程序 无 法 正 
确 安装 并 留 下 部 分 信息 到 注册 表 )，Windows 在 做 出 这 些 修改 之 前 创建 系统 还 原点 (system 
restore point)。 还 原点 包含 在 更 改 之 前 的 配置 单元 的 副本 中 ,它们 可 以 用 于 恢复 到 这 个 版 本 
的 配置 信息 ， 从 而 使 得 一 个 损坏 系统 再 次 工作 。 

为 了 提高 注册 表 配 置 的 稳定 性 ， 从 Windows Vista 开始 ，Windows 添加 了 事务 机 制 ， 可 
以 用 于 防止 注册 表 被 一 组 有 关 配 置 更 改 而 部 分 更 新 。 注 册 表 事务 可 以 是 ， 由 内 核 事务 管理 器 
( Kernel Transaction Manager, KTM) 维护 的 更 为 一 般 事 务 管理 的 一 部 分 ，KTM 也 可 以 包括 
文件 系统 事务 。KTM 事务 没有 正常 数据 库 事务 的 完全 语义 ; 没有 取代 系统 恢复 功能 ， 以 便 
恢复 软件 安装 引起 的 注册 表 配 置 损坏 。 
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17;3:3,11 Sle 
当 硬 件 上 电 ， 固 件 从 ROM 开始 执行 时 ，Windows PC 开始 引导 。 老 式 机 器 使 用 固件 
BIOS ; 而 更 现代 的 系统 使 用 统一 可 扩展 固件 接口 ( Unified Extensible Frmware Interface, 
UEFI)，UEFI 更 快 、 更 通用 、 更 好 利用 现代 处 理 器 的 功能 。 固 件 运行 上 电 自 检 (Power-On 
Self-Test，POST) 诊断 ; 识别 系统 连接 的 许多 设备 ， 并 初始 化 它们 为 干净 的 、 上 电 状 态 ; 然 
后 建立 高 级 配置 和 电源 接口 ( Advanced Configuration and Power Interface, ACPI) 使 用 的 描 
述 。 接 下 来 ， 固 件 找到 系统 磁盘 ， 加 载 Windows 的 程序 bootmgr ， 并 开始 执行 它 。 
对 于 一 直 休眠 的 机 器 ， 接 下 来 加 载 程序 winresume。 它 从 磁盘 恢复 运行 系统 ， 然 后 系 
统 就 在 休眠 之 处 继续 执行 。 对 于 已 被 关闭 的 机 器 ， 程 序 bootmgr 进一步 初始 化 系统 ， 再 加 
载 winload, winload 加 载 hal.dl1、 内 核 (ntoskrnl.exe)、 引 导 所 需 的 任何 驱动 程序 以 
及 系统 配置 单元 。 然 后 ，winload 转 而 执行 内 核 。 
内 核 进行 初始 化 ， 并 创建 两 个 进程 。 系 统 进程 (system process) 包括 所 有 内 部 内 核 工作 
线程 ， 不 会 按 用 户 模式 运行 。 第 一 个 用 户 模 式 进程 为 SMSS ( Session Manager SubSystem, 
会 话 管 理子 系统 )， 类 似 于 UNIX 的 INIT (INITialization， 初 始 化 ) 进程 。SMSS 进一步 初 
始 化 系统 ， 包 括 建立 分 页 文件 、 加 载 更 多 设备 驱动 程序 以 及 管理 Windows 会 话 。 每 个 会 
话 用 于 表示 已 登录 的 用 户 ， 除 了 会 话 0。 会 话 0 用 于 运行 系统 范围 的 后 台 服 务 ， 如 LSASS 
和 SERVICES。 每 个 会 话 都 由 一 个 CSRSS 进程 实例 来 表示 。 每 个 不 是 0 的 会 话 最 初 运行 
WINLOGON 进程 。 这 个 进程 用 于 用 户 登 录 ， 然 后 启动 EXPLORER 进程 ， 以 执行 Windows 
GUI。 以 下 列表 列 出 了 引导 的 一 些 细节 : 
© SMSS 完成 系统 初始 化 ， 然 后 启动 会 话 0 和 第 一 个 登录 会 话 。 
e WININIT ESH 0 中 运行 ， 以 初始 化 用 户 模式 ， 并 启动 LSASS、SERVICES 和 LSM 
(Local Session Manager， 本 地 会 话 管理 器 )。 

e LSASS (安全 子 系统 ) 实现 如 用 户 认 证 等 功能 。 

e SERVICES 包含 SCM (Service Control Manager， 服 务 控制 管理 器 )， 以 监控 所 有 系统 
后 台 活 动 ， 包 括 用 户 模 式 服务 。 有 些 服务 通过 注册 ， 以 在 系统 引导 时 启动 。 其 他 服 
务 或 者 按 需 启动 ， 或 者 通过 设备 到 达 之 类 事件 的 触发 来 启动 。 

© CSRSS 是 Win32 环境 子 系统 进程 。 每 个 会 话 都 会 启动 CSRSS， 这 不 同 于 POSIX F 

系统 ; 只 有 在 创建 POSIX 进程 时 ，POSIX 子 系统 才 会 按 需 启动 。 

© 每 个 不 是 会 话 0 的 Windows 会 话 都 会 运行 WINLOGON, ， 以 便 用 户 登 录 。 

通过 从 系统 以 前 启动 的 磁盘 来 预 读 文件 页 面 ， 系 统 优化 引导 进程 。 引 导 磁 盘 的 访问 模 
式 ， 也 用 于 布局 磁盘 系统 文件 ， 以 减少 所 需 IO 操作 的 数量 。 需 要 启动 系统 的 进程 数量 ， 通 
过 组 合 服务 可 以 减少 。 所 有 这 些 方 法 都 有 助 于 显著 减少 系统 启动 时 间 。 当 然 ， 由 于 Windows 
睡眠 和 休眠 的 功能 ， 系 统 启动 时 间 已 不 再 那么 重要 。 


17.4 终端 服务 与 快速 用 户 切 换 


Windows 支持 基于 GUI 的 控制 台 ， 它 通过 键盘 、 鼠 标 和 显示 器 与 用 户 进 行 交 互 。 大 多 
数 系 统 还 支持 音频 和 视频 。 音 频 输 入 用 于 Windows 语音 识别 软件 ; 语音 识别 使 得 系统 更 加 
方便 ， 提 高 残疾 用 户 的 可 用 性 。Windows 7 增加 了 多 点 触 控 硬件 (multi-touch hardware) 的 
支持 ， 人 允许 用 户 通过 触摸 屏幕 和 用 一 个 或 多 个 手指 来 做 手势 ， 以 输入 数据 。 最 终 ， 视 频 输 
和 人 功能， 现 已 用 于 通信 应 用 程序 ， 很 可 能 用 于 可 视 化 地 解释 手势 ;Microsoft 已 将 其 应 用 于 
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Xbox 360 Kinect 产品 。 其 他 未 来 输入 技术 可 能 从 微软 的 平板 电脑 (surface computer) 演变 
而 来 。 平 板 电 脑 ， 大 多 通常 安装 在 公共 场所 ， 如 酒店 和 会 议 中 心 ; 它 通常 像 个 桌面 ， 下 面 有 
特殊 的 相机 。 它 可 以 同时 跟踪 多 个 用 户 的 操作 ， 并 识别 放置 在 上 面 的 物体 。 

当然 ，PC 被 设想 为 个 人 计算 机 ， 即 单 用 户 的 机 器 。 然 而 ， 现 代 Windows 支持 多 个 用 
户 共 享 一 个 PC。 每 个 使 用 GUI 的 登录 用 户 有 一 个 会 话 (session)， 以 代表 使 用 的 GUI 环 
境 ， 并 包含 运行 程序 的 所 有 进程 。Windows 允许 多 个 会 话 在 一 台 机 器 上 同时 存在 。 然 而 ， 
Windows 仅 支 持 单个 控制 台 ， 包 括 所 有 连接 到 PC 的 显示 器 、 键 盘 和 鼠标 。 一 次 只 有 一 个 会 
话 可 以 连 到 控制 台 。 从 控制 台 显 示 的 登录 屏幕 上 ， 用 户 可 以 创建 新 的 会 话 ， 或 连 到 先前 创建 
的 已 有 会 话 。 这 允许 多 个 用 户 共 享 一 台 PC， 而 用 户 无 需 不 断 地 注销 与 登录 。 微 软 称 这 种 会 
话 使 用 为 快速 用 户 交 换 (fast user switching) o 

用 户 还 可 以 创建 新 的 会 话 ， 或 从 另 一 台 PC 的 Windows 会 话 连 到 一 台 PC 的 现 有 会 话 。 
终端 服务 器 (Terminal Server, TS) 连接 用 户 本 地 会 话 的 一 个 GUI 窗口 到 远程 计算 机 的 新 的 
或 现 有 的 会 话 ， 这 称 为 远程 桌面 (remote desktop ) 。 远 程 桌面 的 最 常 使 用 是 ， 用 户 从 他 们 的 
家 用 PC 连 到 他 们 的 工作 PC 来 进行 使 用 。 

许多 公司 通过 数据 中 心 维护 的 公司 终端 服务 器 系统 ， 运 行 所 有 访问 公司 资源 的 所 有 用 
户 会 话 ， 而 不 是 允许 用 户 访问 每 个 用 户 办 公 室 PC 的 那些 资源 。 每 台 服 务 器 计算 机 都 可 能 处 
理 许多 远程 桌面 会 话 。 这 是 一 种 形式 的 瘦 客 户 机 (thin-client) 计算 ， 即 单个 计算 机 的 很 多 功 
能 依赖 于 服务 器 。 依 托 数 据 中 心 终端 服务 器 可 以 提高 公司 计算 资源 的 可 靠 性 、 可 管理 性 和 
安全 性 。 

Windows 还 使 用 TS 来 实现 远程 辅助 ( remote assistance)。 远 程 用 户 可 以 被 邀请 与 登录 
到 控制 台 上 的 用 户 一 起 共享 会 话 。 远 程 用 户 可 以 观看 用 户 的 动作 ， 甚 至 可 以 控制 桌面 ， 以 帮 
助 解决 计算 问题 。 


17.5 文件 系统 


Windows 的 本 地 文件 系统 是 NTFS。 它 用 于 所 有 本 地 卷 。 然 而 ，USB 拇指 驱动 器 、 相 机 
闪存 和 外 部 磁盘 可 以 通过 32 位 FAT 文件 系统 来 格式 化 ， 以 便携 带 。FAT 是 一 个 较 老 的 文件 
系统 ， 它 用 于 许多 系统 ， 包 括 Windows， 例 如 照相 机 运行 的 软件 。 缺 点 是 ，FAT 文件 系统 没 
有 限制 文件 访问 为 授权 用 户 。 保 护 FAT 数据 的 唯一 解决 方案 是 ,通过 应 用 程序 ， 首 先 加 密 
数据 ， 然 后 存储 数据 到 文件 系统 。 

相 比 之 下 ，NTFS 使 用 ACL 来 控制 访问 单个 文件 ， 并 支持 隐 式 加 密 单 个 文件 或 整个 卷 
(通过 Windows BitLocker 功能 )。NTFS 还 实现 了 很 多 其 他 功能 ， 包 括 数据 恢复 、 容 错 、 非 
常 大 的 文件 和 文件 系统 、 多 个 数据 流 、UNICODE 名 称 、 稀 朴 文 件 、 日 志 、 卷 影 副本 和 文件 


17.5.1 NTFS 内 部 布局 


NTFS 的 基本 实体 是 卷 。 卷 是 由 Windows 逻辑 磁盘 管理 工具 来 创建 的 ， 是 基于 逻辑 磁 
盘 分 区 的 。 一 个 卷 可 以 占据 部 分 磁盘 ， 或 整个 磁盘 ， 或 多 个 磁盘 。 

NTFS 的 磁盘 分 配 单元 不 是 单个 磁盘 鹿 区 而 是 能。 每 复 (cluster) 为 一 组 磁盘 扇 区 ， 其 
扇 区 数 是 2 的 宕 。 复 大 小 可 以 在 格式 化 NTFS 文件 系统 时 设置 。 缺 省 的 复 大 小 是 基于 卷 大 小 
的 ， 对 于 大 于 2GB 的 卷 为 4KB。 考 虑 到 现今 磁盘 的 大 小 ， 使 用 大 于 Windows 默认 值 来 实现 
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更 好 性 能 可 能 更 为 合理 ， 尽 管 这 些 性 能 提升 会 带 来 更 多 内 部 碎片 。 

NTFS 使 用 逻辑 簇 号 ( Logical Cluster Number, LCN) 作为 磁盘 地 址 。 它 按 从 磁盘 开始 
到 最 后 的 顺序 为 每 个 簇 编 号 。 利 用 这 种 方案 ， 通 过 簇 大 小 乘 以 LCN， 系 统 可 以 计算 物理 磁 
盘 偏 移 ( 以 字 节 为 单位 )。 

NTFS 文件 不 同 于 UNIX 的 文件 ， 不 只 是 简单 的 字 节 流 ; 相反 ， 它 是 由 类 型 属性 (attribute) 
组 成 的 结构 化 对 象 。 每 个 文件 属性 都 是 独立 的 字 节 流 ， 它 可 以 被 创建 、 删 除 、 读 和 写 。 有 
些 属性 类 型 是 标准 的 ， 用 于 所 有 文件 ， 包 括 文件 名 (或 多 个 名 称 ， 如 果 文 件 有 别名 ， 如 MS- 
DOS 的 短 名 )、 创 建 时 间 以 及 指定 访问 控制 列表 的 安全 描述 符 等 。 用 户 数据 存储 在 数据 属性 
(data attribute) 中 。 

大 多 数 的 传统 数据 文件 都 有 一 个 无 名 的 数据 属性 ， 用 于 包含 所 有 的 文件 数据 。 然 而 ， 额 
外 的 数据 流 可 以 采用 显 式 名 称 来 创建 。 例 如 ， 对 于 存储 在 Windows 服务 器 上 的 Macintosh 
文件 ， 资 源 分 支 是 个 命名 的 数据 流 。 组 件 对 象 模 型 ( Component Object Model, COM) 的 
[Prop 接口 采用 命名 数据 流 ， 以 存储 普通 文件 的 属性 ， 包 括 图 像 的 缩 略 图 。 一 般 来 说 ， 属 性 
可 以 按 需 增加 ， 并 通过 语法 file-name:attribute 来 加 以 访问 。NTEFS 在 响应 文件 查询 操作 (如 
运行 命令 dir) 时 ， 只 返回 未 命名 属性 的 大 小 。 

每 个 NTFS 文件 的 描述 采用 记录 数组 ， 存 储 在 称 为 主 文件 表 (Master Fle Table, MFT) 
的 特殊 文件 中 。 记 录 大 小 是 在 文件 系统 创建 时 确定 的 ; 它 的 范围 为 1 ~ 4KB。 小 属性 ， 叫 作 
常 驻 属性 ( resident attribute)， 本 身 存 储 在 MFT 中 。 大 属性 ， 如 无 名 的 大 量 数据 ， 叫 作 非 常 
驻 属性 (nonresident attribute)， 保 存在 一 个 或 多 个 连续 的 磁盘 盘 区 (extent) 中 。 每 个 盘 区 的 
指针 存储 在 MFT 记录 中 。 对 于 小 文件 ， 数 据 属性 甚至 可 能 完全 放 到 MFT 记录 。 如 果 一 个 
文件 具有 很 多 属性 ， 或 者 如 果 它 是 高 度 分 段 的 ， 则 需要 许多 指针 来 指向 所 有 的 碎片 ， 从 而 一 
个 MFT 记录 可 能 不 够 大 。 在 这 种 情况 下 ， 这 个 文件 的 描述 记录 称 为 基本 文件 记录 (base file 
record)， 它 包含 了 溢出 记录 (拥有 额外 的 指针 和 属性 ) 的 指针 。 

NTFS 卷 的 每 个 文件 有 一 个 唯一 ID， 称 为 文件 引用 (file reference)。 文 件 引 用 是 一 个 
64 位 的 值 ， 它 包括 一 个 48 位 的 文件 号 和 一 个 16 位 的 序列 号 。 文 件 号 是 MFT 中 的 描述 文件 
的 记录 的 编号 ( 即 数组 捅 槽 )。 每 次 一 个 MFT 记录 被 重用 时 ， 其 序列 号 递增 。 序 列 号 能 使 
NTFS 执行 内 部 一 致 性 检查 ， 如 在 MFT 条 目 重用 于 新 文件 之 后 捕获 删除 文件 的 失效 引用 。 
17.5.1.1 NTFS B+ 树 

与 UNIX 一 样 ，NTFS 命名 空间 按 目录 层次 来 组 织 。 每 个 目录 使 用 一 个 称 为 B+ 树 (B+ 
tree) 的 数据 结构 ， 以 存储 这 个 目录 中 的 文件 名 的 索引 。 对 于 B+ 树 ， 从 树 根 到 树叶 的 每 条 路 
径 的 长 度 是 相同 的 ， 重组 树 的 成 本 被 消除 了 。 目 录 的 索引 根 (index root) 包括 B+ 树 的 顶层 。 
对 于 大 的 目录 ， 这 个 顶层 包含 ， 用 于 保存 此 树 其 余部 分 的 磁盘 盘 区 的 指针 。 每 个 目录 条 目 包 
含 文件 名 称 、 文 件 引 用 以 及 MFT 的 文件 常 驻 属性 的 更 新 时 间 惟 和 文件 大 小 的 副本 。 这 种 信 
息 副 本 存储 在 目录 中 ， 以 便 可 以 有 效 生 成 目录 列表 。 因 为 所 有 文件 名 称 、 大 小 和 更 新 时 间 可 [776 
以 从 目录 本 身 获得 ， 所 以 无 需 为 每 个 文件 从 MFT 条 目 中 收集 这 些 属性 。 
17.5.1.2 NTFS 元 数据 

NTFS 卷 的 元 数据 都 存储 在 文件 中 。 第 一 个 文件 是 MFT。 第 二 个 文件 ， 用 于 MFT 文件 
遭 破坏 时 的 恢复 ,包含 MFT 前 16 个 条 目的 副本 。 接 下 来 的 几 个 文件 也 有 特别 用 途 。 它 们 包 
括 下 面 所 述 的 文件 。 

© 日 志文 件 (log file) 记录 文件 系统 的 所 有 元 数据 更 新 。 
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© 卷 文件 (volume file) 包含 卷 的 名 称 、 卷 格式 化 的 NTFS 版 本 以 及 表示 卷 是 否 可 能 已 
损坏 而 需要 使 用 程序 chkdsk 检查 一 致 性 的 一 个 位 。 
o 属性 定义 表 (attribute-definition table) 指定 哪些 属性 类 型 用 于 卷 ， 以 及 哪些 操作 可 以 
操作 它们 。 
e MAR (root directory) 是 文件 系统 层次 的 顶级 目录 。 
o 位 图 文件 (bitmap file) 指示 哪些 卷 的 艇 被 分 配 到 文件 ， 以 及 哪些 是 空闲 的 。 
© 引导 文件 (boot file) 包含 Windows 的 引导 代码 ， 必 须 位 于 特定 的 磁盘 地 址 以 便 简单 
的 ROM 自 举 程序 可 以 很 容易 查找 到 。 引 导 文 件 还 包含 MPT 的 物理 地 址 。 
o 坏 簇 文件 (bad-cluster file) 跟踪 卷 内 的 任意 坏 区 。NTEFS 使 用 这 个 记录 以 便 进 行 错误 
恢复 。 
保存 所 有 NTFS 元 数据 到 实际 文件 是 个 有 用 的 属性 。 如 17.3.3.6 节 所 述 ， 缓 存 管理 器 组 
存 文件 数据 。 由 于 所 有 NTFS 元 数据 都 在 文件 中 ， 这 些 数 据 通过 用 于 普通 数据 的 相同 机 制 可 
以 进行 缓存 。 


17.5.2 WE 


对 于 许多 简单 的 文件 系统 ， 错 误 时 间 的 电源 故障 可 以 如 此 严重 破坏 文件 系统 的 数据 结 
构 ， 以 致 整个 卷 都 搞 乱 了 。 许 多 UNIX 文件 系统 ， 包 括 UFS 但 不 包括 ZFS， 存 储 宛 余 的 元 
数据 在 磁盘 上 ; 它们 通过 程序 fsck 来 检查 所 有 文件 系统 数据 结构 并 强制 恢复 到 一 致 状态 ， 
以 从 崩溃 中 恢复 过 来 。 恢 复 它们 通常 涉及 : 删除 损坏 的 文件 ， 释 放 已 经 写 人 数据 但 并 未 正确 
记录 到 文件 系统 元 数据 结构 的 数据 徐 。 这 种 检查 可 能 是 个 缓慢 过 程 ， 可 以 造成 大 量 数据 的 
损失 。 

对 于 文件 系统 的 鲁 棒 性 ，NTFS 采取 不 同 的 方法 。 对 于 NTFS， 所 有 文件 系统 数据 结构 
更 新 都 在 事务 中 执行 。 在 更 改 数据 结构 之 前 ， 事 务 写 和 人 包含 重 做 和 撤销 信息 的 日 志 记录 。 在 
更 改 数据 结构 之 后 ， 事 务 写 和 人 提供 记录 到 日 志 ， 表 示 该 事务 成 功 了 。 

前 溃 后 ， 系 统 通过 处 理 日 志 记 录 可 以 恢复 文件 系统 数据 结构 到 一 致 状态 : 首先 重 做 提交 
的 事务 操作 ， 然 后 撤销 在 骨 溃 之 前 没有 成 功 提交 的 事务 操作 。 定 期 地 (通常 每 5 秒 )， 检 查 
点 的 记录 被 写 到 日 志 。 系 统 为 了 从 崩 演 中 恢复 过 来 ， 并 不 需要 检查 点 之 前 的 日 志 记 录 。 它 们 
可 以 被 丢弃 ， 所 以 日 志文 件 不 会 无 限 增长 。 在 系统 启动 之 后 首次 访问 NTFS 卷 时 ，NTFS 自 
动 执 行文 件 系统 的 恢复 。 

这 个 方案 并 不 保证 所 有 用 户 文件 的 内 容 在 崩溃 之 后 还 是 正确 的 。 它 只 能 确保 文件 系统 的 
数据 结构 (元 数据 文件 ) 没有 损坏 ,并 反映 月 浊 之 前 的 某 个 一 致 状态 。 扩 展 事务 方案 以 覆盖 
用 户 文件 是 有 可 能 的 ， 并 且 微 软 在 Windows Vista 中 采取 了 一 些 尝 试 。 

日 志 存储 在 卷首 的 第 三 个 元 数据 文件 中 。 它 在 文件 系统 格式 化 时 ， 用 固定 最 大 尺寸 来 创 
建 。 它 有 两 个 区 域 : 一 个 是 记录 区 域 (logging area)， 它 是 日 志 记 录 的 循环 队列 ; 另 一 个 是 
重启 区 域 (restart area)， 它 包含 上 下 文 信息 ， 如 日 志 区 域 的 位 置 (恢复 期 间 ，NTEFS 应 该 开 
始 阅 读 的 区 域 )。 事 实 上 ， 重 启 区 域 保存 其 信息 的 两 个 副本 ， 这 样 当 崩溃 损坏 一 个 副本 时 恢 
复 仍 有 可 能 。 

日 志 记 录 功 能 通过 日 志文 件 服务 (1log-file service) 来 提供 。 除 了 写 人 日 志 记录 和 执行 恢 
复 操作 外 ， 日 志文 件 服 务 跟踪 日 志文 件 的 空闲 空间 。 如 果 空 闲 空间 太 少 ， 则 日 志文 件 服务 排 
队 等 待 事务 ，NTFS 停止 所 有 新 的 VO 操作 。 在 当前 执行 操作 完成 后 ，NTFS 调用 缓存 管理 
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器 刷新 所 有 数据 ， 重 置 日 志文 件 ， 并 且 执 行 排队 的 事务 。 


17.5.3 ”安全 


NTFS 卷 的 安全 性 源 自 Windows 对 象 模型 。 每 个 NTFS 文件 引用 : 一 个 安全 描述 符 ， 用 
于 指定 文件 的 所 有 者 ; 一 个 访问 控制 列表 ， 用 于 包含 每 个 用 户 或 组 的 授予 或 拒绝 的 访问 权 
限 。 早 期 版 本 的 NTFS 采用 单独 的 安全 描述 符 来 作为 每 个 文件 的 属性 。 从 Windows 2000 FF 
始 ， 安 全 描述 符 属 性 指向 共享 副本 ， 大 大 节省 了 磁盘 和 缓存 空间 ; 很 多 很 多 文件 具有 相同 的 
安全 描述 符 。 

在 正常 情况 下 ，NTFS 在 遍历 文件 路 径 名 内 的 目录 时 并 不 强制 许可 权限 。 然 而 ， 为 了 
与 POSIX 相 兼 容 ， 这 些 检查 可 以 启用 。 遍 历 检查 本 质 上 更 昂贵 ， 因 为 文件 路 径 名 称 的 现代 
解析 使 用 前 级 匹配 ， 而 非 路 径 名 称 的 逐个 目录 解析 。 前 缀 匹配 是 这 样 的 算法 : 查找 缓存 中 
的 字符 串 ， 并 找到 具有 最 长 匹配 的 条 目 ， 例 如 ， 条 目 \foo\ban\dir 会 匹配 \foo\bar\dir2\dir3\ 
myfile。 前 缀 匹配 缓存 允许 路 径 名 遍历 ， 以 从 树 的 更 深 处 开始 ， 从 而 节省 了 许多 步骤 。 执 行 
遍历 检查 意味 着 ， 每 个 目录 级 别 必须 检查 访问 。 例 如 ， 用 户 可 能 缺乏 许可 来 遍历 \foo\bar, 
所 以 从 \foo\bar\dir 开始 的 访问 会 是 一 个 错误 。 


17.5.4 ” 卷 管理 和 容错 


FtDisk 是 Windows 的 容错 磁盘 驱动 程序 。 在 安装 后 ， 它 提供 了 多 种 方式 将 多 个 磁盘 驱 
动 器 组 成 一 个 逻辑 卷 ， 以 提高 性 能 、 容 量 或 可 靠 性 。 
17.5.4.1 卷 集 与 RAID 集 

组 合 多 个 磁盘 的 一 种 方法 是 ， 逻 辑 地 合并 它们 以 便 形成 一 个 较 大 的 逻辑 卷 ， 如 图 17-7 
所 示 。 对 于 Windows， 这 个 逻辑 卷 称 为 卷 集 (volume set)， 可 以 包含 最 多 32 个 物理 分 区 。 
包含 NTFS 卷 的 卷 集 可 以 扩展 ， 而 不 会 扰乱 已 经 存储 在 文件 系统 中 的 数据 。NTFS 卷 的 位 图 
元 数据 只 需 简单 扩展 就 可 覆盖 新 增 空间 。NTFS 继续 使 用 与 用 于 单个 物理 磁盘 一 样 的 LCN 
机 制 ; 驱动 程序 FtDisk 提供 了 从 一 个 逻辑 卷 偏 移 到 一 个 特定 磁盘 偏 移 的 映射 。 


磁盘 1 (2.5GB) 磁盘 2 (2.5GB) 








磁盘 C: (FAT) 2GB 


LCN 128001 一 783361 


E (NTFS) 3GB 


图 17-7 ”两 个 磁盘 的 卷 集 
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组 合 多 个 物理 分 区 的 另 一 种 方法 是 ， 按 轮转 方式 来 交织 块 以 形成 条 带 集 (stripe set). 
这 种 方案 称 为 RAID 0， 或 磁盘 条 带 化 〈disk stripe)。( 有 关 RAID (Redundant Arrays of Inex 
pensive Disk， 廉 价 磁 盘 元 余 阵 列 ) 的 更 多 信息 ， 请 参阅 12.7 节 ) FtDisk 使 用 64KB 大 小 的 
条 带 。 逮 辑 卷 的 第 一 个 64KB 保存 在 第 一 个 物理 分 区 ， 第 二 个 64KB 在 第 二 个 物理 分 区 ， 依 
此 类 推 ， 直 到 每 个 分 区 都 贡献 了 64KB 的 空间 。 然 后 ， 分 配 绕 回 到 第 一 个 磁盘 ， 分 配 第 二 个 
64KB 条 带 。 条 带 集 形成 一 个 大 的 逻辑 卷 ， 但 是 物理 布局 可 以 提高 IO 带宽 ， 因 为 对 于 很 大 
的 IO， 所 有 磁盘 都 可 以 并 行 地 传输 数据 。Windows 也 支持 RAID 5 ( 带 奇 偶 校 验 的 条 带 集 ) 
Al RAID 1 (镜像 )。 

1754.2 BEER SRERH 

为 了 处 理 那些 变 坏 的 磁盘 扇 区 ，FtDisk 使 用 称 为 扇 区 备份 的 硬件 技术 ，NTFS 使 用 称 
为 徐 重 映射 的 软件 技术 。 扇 区 备份 (sector sparing) 是 一 种 硬件 能 力 ， 许 多 磁盘 驱动 器 都 提 
供 这 种 能 力 。 磁 盘 驱动 器 在 格式 化 时 ， 创 建 从 逻辑 块 号 到 磁盘 好 扇 区 的 一 个 映射 。 它 也 保留 
了 未 被 映射 的 额外 的 扁 区 作为 备用 。 如 果 一 个 扇 区 故障 ， 则 FtDisk 指示 磁盘 驱动 器 ， 采 用 
ROREM, RERI (cluster remapping) 是 一 种 软件 技术 ， 由 文件 系统 执行 。 如 果 磁 盘 块 
变 坏 ， 则 NTFS 通过 修改 MFT 内 的 任何 受 影响 的 指针 ， 采 用 不 同 的 、 未 分 配 的 块 来 替代 它 。 
NTFS 还 做 了 一 个 标记 : 这 个 坏 块 不 应 被 分 配 到 任何 文件 。 

当 磁 盘 块 变 坏 时 ， 通 常 的 结果 是 数据 丢失 。 但 是 扇 区 备份 或 篮 重 映射 可 以 与 容错 卷 组 合 
起 来 ,来 屏蔽 磁盘 块 的 故障 。 如 果 读 取 失 败 ， 则 系统 通过 读 取 镜像 或 计算 具有 奇偶 校 验 的 条 
带 的 异 或 来 重新 构建 丢失 的 数据 。 重 建 的 数据 存储 在 新 的 位 置 ， 它 通过 扇 区 备份 或 复 重 映射 
来 获得 。 


17.5.5 压缩 


NTFS 可 以 对 单个 文件 或 目录 内 的 所 有 数据 文件 进行 数据 压缩 。 为 了 压缩 文件 ，NTFS 
将 文件 数据 分 成 压缩 单元 (compression unit)， 每 个 单元 是 16 个 连续 篮 的 块 。 当 写 人 压缩 单 
元 时 ， 应 用 数据 压缩 算法 。 如 果 压 缩 结果 小 于 16 徐 ， 则 存储 压缩 版 本 。 当 读 取 时 ，NTFS 
可 以 确定 数据 是 否 已 被 压缩 : 如 果 已 经 压缩 ， 则 存储 压缩 单元 的 长 度 小 于 16 徐 。 为 了 提高 
读 取 连 续 压缩 单元 的 性 能 ，NTFS 在 应 用 程序 发 出 请 求 之 前 可 以 预 取 与 解压 。 

对 于 稀 朴 文件 或 者 大 部 分 为 零 的 文件 ，NTFS 使 用 另外 一 种 技术 来 节省 空间 。 由 于 从 未 
写 人 而 仅 包 含 零 的 徐 ， 没 有 实际 在 磁盘 上 分 配 或 存储 。 相 反 ， 在 文件 MFT 条 目 中 存储 的 虚 
PARTS PISA ER. “SREB HEI, WMR NTFS 在 虚拟 得 码 中 找到 间隙 ， 则 它 就 会 用 零 填 
充 ， 调 用 程序 缓冲 区 的 那个 部 分 。 这 个 技术 也 用 于 UNIX。 


1756 ”安装 点 、 符 号 链接 和 硬 链接 


安装 点 是 NTFS 目录 特有 的 一 种 符号 链接 ， 由 Windows 2000 引入 。 它 们 提供 了 组 织 
盘 卷 的 一 种 机 制 ， 比 全 局 名 称 ( 如 驱动 器 号 ) 更 加 灵活 。 安 装点 的 实现 采用 符号 链接 ， 其 关 
联 数据 包含 真正 的 卷 名 。 最 终 ， 安 装点 会 完全 取代 驱动 器 号 ; 但 是 由 于 许多 应 用 程序 对 驱动 
器 字母 方案 的 依赖 ， 这 个 转换 过 渡 会 比较 长 。 

Windows Vista 支持 更 为 一 般 形式 的 符号 链接 ， 类 似 于 UNIX 链接 。 链 接 可 以 是 绝对 的 
或 相对 的 ， 可 以 指向 并 不 存在 的 对 象 ， 可 以 指向 甚至 跨 卷 的 文件 与 目录 。NTFS 还 支持 硬 链 
接 (hard link)， 即 单个 文件 可 以 位 于 同一 卷 的 多 个 目录 。 
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17.5.7 ”变更 日 志 


NTFS 保存 一 个 日 志 ， 用 于 描述 文件 系统 的 所 有 更 改 。 用 户 模式 服务 可 以 收 到 日 志 更 改 
的 通知 ， 并 能 通过 读 取 日 志 确 定 哪 些 文件 已 经 更 改 。 搜 索索 引 服务 使 用 变更 日 志 ， 以 便 确 定 
需要 重新 建立 索引 的 文件 。 文 件 复制 服务 使 用 它 ， 以 确定 哪些 文件 需要 通过 网 络 加 以 复制 。 


17.5.8 卷 的 影子 副本 


Windows 能 够 将 卷 带 到 某 个 已 知 状态 ， 并 创建 可 以 用 于 备份 卷 的 一 致 视图 的 影子 副 
本 。 这 种 技术 ， 被 一 些 其 他 文件 系统 称 为 快照 (snapshot)。 制 作 卷 的 影子 副本 是 一 种 写 时 
复制 ; 影子 副本 创建 之 后 修改 的 块 ， 按 原先 形式 的 副本 来 存储 。 为 了 达到 卷 的 一 致 状态 ， 
需要 应 用 程序 合作 ; 因为 系统 无 法 知道 何 时 应 用 程序 使 用 的 数据 处 于 一 致 ， 以 便 安全 重启 
应 用 程序 。 

服务 器 版 本 的 Windows 使 用 影子 副本 ， 以 有 效 维护 文件 服务 器 存储 的 旧版 文件 。 这 人 允 
许 用 户 可 以 看 到 文件 服务 器 存储 的 文件 ， 如 同 它 们 存在 于 较 早 的 时 间 点 。 用 户 可 以 使 用 这 个 
功能 ， 恢 复 偶 然 删除 的 文件 或 只 是 查看 文件 的 以 前 版 本 ， 而 无 需 使 用 备用 媒介 。 


17.6 网 络 


Windows 同时 支持 对 等 网 络 与 客户 机 - 服务 器 网 络 。 它 还 具有 网 络 管理 功能 。Windows 
的 网 络 组 件 提 供 数据 传输 、 进 程 间 通信 、 路 网 络 的 文件 共享 以 及 能 够 发 送 打 印 作业 到 远程 打 
印 机 等 。 


17.6.1 网 络 接口 


为 了 描述 Windows 联网 ， 我 们 首先 必须 提 到 两 个 内 部 网 络 接口 : 网 络 设备 接口 规 
范 (Network Device Interface Specification, NDIS) 和 传输 驱动 程序 接口 (Transport Driver 
Interface，TDI)。NDIS 接口 由 Microsoft 和 3Com 于 1989 年 合作 开发 ， 以 区 分 网 络 适配器 
与 传输 协议 ， 这 样 改变 一 个 而 不 影响 男 一 个 。NDIS 位 于 ISO 模型 的 数据 链接 层 与 网 络 层 之 
间 的 接口 ， 能 使 许多 协议 运行 在 许多 不 同 的 网 络 适 配器 之 上 。 就 ISO 模型 而 言 ，TDI 是 传 
输 层 (第 四 层 ) 和 会 话 层 (第 五 层 ) 之 间 的 接口 。 这 个 接口 能 使 任何 会 话 层 组 件 ， 使 用 任何 
可 用 的 传输 机 制 。( 类 似 原 因 导 致 UNIX 的 流 机 制 ) TDI 同时 支持 基于 连接 与 非 连接 的 传输 ， 
并 且 具 有 发 送 任 何 类 型 数据 的 功能 。 


17.6.2 协议 


Windows 将 传输 协议 实现 为 驱动 程序 。 这 些 驱动 程序 可 以 从 系统 中 动态 加 载 或 印 载 ， 
尽管 事实 上 ， 在 改变 之 后 系统 通常 需要 重新 启动 。Windows 带 有 多 个 网 络 协议 。 接 下 来 ,我 
们 讨论 几 个 这 些 协 议 。 
17.6.2.1 服务 器 消息 块 

服务 器 消息 块 ( Server Message Block, SMB) 协议 首先 由 MS-DOS 3.1 引入。 系统 使 
用 这 个 协议 ， 以 便 通过 网 络 发 送 IO 请 求 。SMB 协议 有 4 种 消息 类 型 。Session control 
消息 ， 用 于 启动 和 结束 服务 器 端 共 享 资 源 的 重 定向 连接 。 重 定向 器 使 用 消息 File， 来 访问 
服务 器 的 文件 。printer 消息 ， 发 送 数 据 到 远程 打印 队列 ， 并 接收 来 自 队列 的 状态 信息 ; 
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Message 消息 ， 用 于 与 另 一 个 工作 站 通信 。 一 个 版 本 的 SMB 协议 ， 按 通用 互联 网 文件 系统 
(Common Internet File System, CIFS) 来 发 布 ， 并 被 多 个 操作 系统 支持 。 
17.6.2.2 ”传输 控制 协议 / 互联 网 络 协议 (TCP/IP) 

Internet 的 TCP/IP 协议 簇 ， 现 已 成 为 事实 上 的 标准 网 络 架 构 。Windows 采用 TCP/IP, 
以 便 连接 各 种 操作 系统 和 硬件 平台 。Windows TCP/IP 软件 包 包 括 简单 网 络 管理 协议 (Simple 
Network Management Protocol，SNMP )、 动 态 主 机 配置 协议 (Dynamic Host Configuration 
Protocol, DHCP) 以 及 较 老 的 Windows 互联 网 名 称 服务 ( Windows Internet Name Service, 
WINS). Windows Vista 推出 了 TCP/IP 的 新 实现 ， 通 过 同一 网 络 堆栈 来 支持 IPv4 和 IPv6。 
这 个 新 实现 还 支持 下 载 网 络 堆栈 到 高 级 硬件 ， 从 而 为 服务 器 提供 很 高 的 性 能 。 

Windows 提供 了 软件 防火 墙 ， 以 限制 网 络 通信 程序 可 以 使 用 的 TCP 端口 。 网 络 防火 墙 
通常 在 路 由 器 中 实现 ， 并 且 是 个 非常 重要 的 安全 措施 。 操 作 系 统 的 内 置 防火 墙 使 得 硬件 路 由 
器 的 防火 墙 没 有 必要 ， 它 也 提供 更 加 整合 的 管理 和 更 容易 的 使 用 。 
17.6.2.3 点 到 点 隧道 协议 

点 到 点 隧道 协议 ( Point-to-Point Tunneling Protocol, PPTP) 是 由 Windows 提供 的 一 种 
协议 ， 以 便 Windows 服务 器 的 远程 访问 服务 器 模块 和 其 他 客户 端 系统 通过 互联 网 来 通信 。 
远程 访问 服务 器 可 以 加 密 通 过 网 络 传输 的 数据 ， 而 且 它 们 支持 互联 网 的 多 协议 虚拟 专用 网 络 
(Virtual Private Network, VPN). 
17.6.2.4 HTTP 协议 

HTTP 协议 通过 万 维 网 来 get/put (传输 ) 信息 。Windows 使 用 内 核 模式 驱动 程序 
来 实现 HTTP， 所 以 Web 服务 器 可 以 按 低 开 销 加 到 网 络 堆栈 。HTTP 是 相当 通用 的 协议 ， 
Windows 可 以 用 它 来 作为 传输 选项 以 实现 RPC。 
17.6.2.5 Web 分 布 式 创作 和 版 本 控制 协议 

WebDAV ( Web-Distributed Authoring and Versioning，Web 分 布 式 创作 和 版 本 控制 ) 是 
基于 HTTP 的 协议 ， 用 于 通过 网 络 进行 协作 创作 。Windows 为 文件 系统 构建 WebDAV E 
定向 器 。WebDAV 和 嵌 到 文件 系统 ， 能 够 与 其 他 文件 系统 功能 (如 加 密 ) 一 起 工作 。 个 人 文 
件 可 以 安全 地 存在 公共 场所 。 因 为 WebDAV 使 用 HTTP (这 是 一 个 get/put 协议 )， 所 以 
Windows 必须 本 地 缓存 文件 ， 以 便 程序 可 以 对 文件 部 分 进行 读 写 操作 。 

17.6.26 ”命名 管道 

命名 管道 (named pipe) 是 面向 连接 的 消息 传递 机 制 。 一 个 进程 可 以 使 用 命名 管道 , 与 
同一 机 器 的 其 他 进程 进行 通信 。 由 于 命名 管道 可 以 通过 文件 系统 接口 来 访问 ， 用 于 文件 对 象 
的 安全 机 制 也 适用 于 命名 管道 。SMB 协议 支持 命名 管道 ， 所 以 命名 管道 也 可 以 用 于 不 同系 
统 的 进程 间 通 信 。 

管道 名 称 的 格式 遵循 统一 命名 约定 (Uniform Naming Convention，UNC)。UNC 名 
称 看 起 来 像 一 个 典型 的 远程 文件 名 称 。 它 的 格式 为 \server_name\share name\x\y\z, HP 
server_name 标识 网 络 服务 器 ; share_name 标识 网 络 用 户 可 用 的 任何 网 络 资源 ， 如 目录 、 
文件 、 命 名 管道 和 打印 机 等 ; \x\y\z 部 分 表示 普通 文件 路 径 名 。 
17.6.2.7 RPC 

远程 过 程 调用 (Remote Procedure Call, RPC) 是 客户 机 - 服务 器 通信 机 制 ， 允 许 一 
台 机 器 的 一 个 应 用 程序 能 够 远程 调用 另 一 台 机 器 的 代码 。 客 户 机 调用 本 地 过 程 ， 即 存根 程 
序 ， 以 将 参数 打包 成 一 个 消息 ， 并 通过 网 络 发 送 到 特定 的 服务 器 进程 。 客 户 端 存根 程序 然 
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后 阻塞 。 同 时 ， 服 务 器 解 包 消息 ， 调 用 过 程 ， 将 返回 结果 打包 成 消息 ， 并 将 其 发 送 回 客户 
端 存根 。 客 户 端 存根 解除 阻塞 ， 接 收 消息 ， 解 包 RPC 的 结果 ， 并 将 其 返回 到 调用 者 。 这 种 
参数 打包 有 时 称 为 封 送 ( marshalling)。 客 户 端的 存根 代码 和 打包 解 包 RPC 参数 的 描述 符 
E, 根据 Microsoft 接口 定义 语言 (Microsoft Interface Definition Language) 编写 的 规范 来 
编译 。 

Windows RPC 机 制 遵循 用 于 RPC 消息 的 广泛 使 用 的 分 布 式 计算 环境 标准 ， 因 此 使 用 
Windows RPC 编写 的 程序 具有 很 好 的 可 移植 性 。RPC 标准 很 详细 。 它 隐藏 了 计算 机 之 间 的 
许多 架构 差异 ， 如 二 进 制 数 的 大 小 、 计 算 机 字 的 字 节 与 位 的 顺序 ， 以 便 指定 RPC 消息 的 标 
准 数据 格式 。 
17.6.2.8 COM 

组 件 对 象 模型 (Component Object Model, COM) 是 Windows 开发 的 进程 间 通 信和 的 
一 种 机 制 。COM 对 象 提供 了 一 个 明确 定义 的 接口 ， 以 操纵 对 象 的 数据 。 例 如 ，COM 是 
Microsoft 对 象 链接 和 嵌入 (Object Linking and Embedding, OLE)) 的 基础 ， 可 用 于 插入 
电子 表格 到 Microsoft Word 文档 。 许 多 Windows 服务 提供 COM 接口 。Windows 还 有 称 为 
DCOM ( Distributed Component Object Model) 的 分 布 式 扩展 ， 可 以 用 于 通过 网 络 利 用 RPC 
以 便 提供 一 种 透明 方式 来 开发 分 布 式 应 用 程序 。 


17.6.3” 重 定向 器 与 服务 器 


Windows 应 用 程序 可 以 使 用 Windows 1/0 API， 就 像 本 地 一 样 地 访问 远程 计算 机 的 文 
件 ， 只 要 远程 计算 机 运行 CIFS 服务 器 ， 如 由 Windows 提供 的 。 重 定向 器 (redirector) 是 客 
户 端 对 象 ， 以 转发 IO 请 求 到 远程 系统 ， 再 由 服务 器 处 理 。 由 于 性 能 和 安全 ， 重 定向 器 与 服 
务 器 运行 于 内 核 模 式 。 

更 详细 地 说 ， 远 程 文件 的 访问 如 下 : 

1. 应 用 程序 调用 IO 管理 器 以 请 求 打开 一 个 文件 ， 该 文件 名 采用 标准 UNC 格式 。 

2. IO 管理 器 构建 VO 请 求 包 ， 如 17.3.3.5 节 所 述 。 

3. IO 管理 器 确定 这 个 访问 是 针对 远程 文件 的 ， 并 调用 一 个 称 为 多 重 通 用 命名 约定 提供 
程序 (Multiple Universal naming convention Provider, MUP) 的 驱动 程序 。 

4. MUP 异步 发 送 W/O 请 求 包 ， 到 所 有 注册 重 定向 顺 。 

5. 能 够 满足 请 求 的 重 定向 器 响应 MUP。 为 了 避免 将 来 用 同样 问题 来 询问 所 有 重 向 器 ， 
MUP 采用 缓存 来 记 住 哪个 重 向 器 可 以 处 理 这 个 文件 。 

6. 重 定向 器 发 送 网 络 请 求 到 远程 系统 。 

7. 远程 系统 网 络 驱 动 程序 接收 请 求 并 传 到 服务 器 驱动 程序 。 

8. 服务 器 驱动 程序 转交 这 个 请 求 到 适当 的 本 地 文件 系统 驱动 程序 。 

9. 调用 适当 的 设备 驱动 程序 来 访问 数据 。 

10. 结果 返回 到 服务 驱动 程序 ， 以 发 回 数据 到 请 求 重 定向 器 。 然 后 ， 重 定向 器 通过 IO 
管理 器 将 数据 返回 到 调用 应 用 程序 。 

对 于 使 用 Win32 网 络 API 而 非 UNC 服务 的 应 用 程序 ， 也 有 类 似 步 又 ;不 过 ， 所 用 模块 
是 多 提供 者 路 由 而 非 MUP。 

为 了 可 移植 性 ， 重 定向 器 与 服务 器 采用 TDI API 进行 网 络 传输 。 请 求 本 身 的 表示 采用 更 
为 高 层 的 协议 ， 默 认为 17.6.2 节 所 述 的 SMB 协议 。 重 定向 器 列表 由 注册 表 的 系统 配置 单元 
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来 维护 。 
17.6.3.1 分 布 式 文件 系统 

UNC 名 称 并 不 总 是 方便 的 ， 因 为 多 个 文件 服务 器 可 以 用 于 提供 同样 内 容 ， 而 UNC 名 
称 明 确 地 包括 了 服务 器 名 称 。Windows 支持 分 布 式 文件 系统 (Distributed File System, DFS) 
协议 ， 允 许 网 络 管理 员 采 用 单一 分 布 名 称 空间 来 提供 多 个 服务 器 的 文件 。 

1763.2 ”目录 重 定向 与 客户 端 缓存 

为 了 改善 频繁 切换 计算 机 的 用 户 体验 ，Windows 允许 管理 员 为 用 户 建立 漫游 配置 文 
{F (roaming profile)， 以 便 在 服务 器 上 保存 用 户 的 偏好 和 其 他 设置 。 目 录 重 定向 folder 
redirection) 就 可 用 于 自动 存储 用 户 文档 和 其 他 文件 到 服务 器 。 

这 样 做 很 好 ， 直 到 其 中 一 台 计 算 机 不 再 连 到 网 络 ， 就 像 用 户 携 带 笔 记 本 电脑 到 飞机 上 
一 样 。 为 了 让 用 户 离线 访问 重 定向 文件 ，Windows 采用 客户 端 缓存 (Client-Side Caching, 
CSC)。 当 计算 机 在 线 时 ，CSC 也 用 于 在 本 地 机 器 上 保存 服务 器 文件 的 副本 ， 以 提供 更 好 的 
性 能 。 当 文件 改变 时 ， 它 们 送 回 到 服务 器 。 如 果 计 算 机 断 开 连接 ， 则 文件 仍然 可 用 ， 而 服务 
器 的 更 新 会 推迟 直到 下 次 计算 机 在 线 。 


17.6.4 tx 


许多 网 络 环境 都 有 自然 的 用 户 组 ， 如 学 校 计 算 机 实验 室 的 学 生 ， 或 某 个 企业 部 门 的 雇 
员 。 通 常 ， 我 们 想 要 某 个 组 内 的 所 有 成 员 能 够 访问 组 内 各 台 计 算 机 的 共享 资源 。 为 了 管理 
这 种 组 的 全 局 访问 权限 ，Windows 采用 域 的 概念 。 以 前 ， 这 些 域 与 DNS ( Domain Name 
System， 域 名 系统 ) 没有 任何 关系 ，DNS 用 于 转换 Internet 主机 名 到 IP 地 址 。 然 而 ， 现 在 
它们 是 密切 相关 的 。 

具体 来 说 ，Windows 域 是 一 组 Windows 工作 站 和 服务 器 ， 它 们 共享 公共 安全 策略 和 用 
户 数 据 库 。 由 于 Windows 使 用 Kerberos 协议 进行 信任 与 认证 ，Windows 的 域 与 Kerberos 
的 域 是 一 样 的 。Windows 使 用 分 层 方法 ， 以 建立 相关 域 之 间 的 信任 关系 。 信 任 关系 是 基 
于 DNS 的 ， 允 许 在 层次 结构 中 上 下 传递 信任 。 这 种 方法 降低 了 用 于 nn 个 域 的 信任 数量 ， 
从 n(n 一 1) 到 O(n)。 域 内 工作 站 信任 域 控 制 器 提供 关于 每 个 用 户 访 问 权 限 的 正确 信息 (由 
LSASS 加 载 到 用 户 访问 令 牌 )。 然 而 ,无论 域 控制 器 如 何 ， 所 有 用 户 保留 限制 访问 工作 站 的 
能 力 。 


17.6.5 活动 目录 


活动 目录 (active directory) 是 Windows 实现 的 轻 量 级 目录 访问 协议 (Lightweight Directory 
Access Protocol, LDAP) 服务 。 活 动 目录 存储 关于 域 的 拓扑 信息 ， 保 留 基 于 域 的 用 户 与 组 
的 账户 和 密码 ， 提 供 基于 域 的 用 于 Windows 功能 的 存储 ， 如 Windows 组 策略 (Windows 
group policy)。 管 理 员 使 用 组 策略 来 建立 用 于 桌面 偏好 和 软件 的 统一 标准 。 对 于 许多 企业 信 
息 技 术 组 而 言 ， 统 一 性 显著 地 降低 了 计算 成 本 。 


17.7 程序 员 接 口 


Win32 API ( Windows 32-bit Application Programming Interface) 是 Windows 功能 的 基 
本 接口 。 本 节 讨 论 Win32 API 的 5 个 主要 方面 : 内 核对 象 的 访问 、 进 程 间 对 象 的 共享 、 进 程 
管理 、 进 程 间 通信 和 内 存 管 理 。 
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17.7.1 访问 内 核对 象 


Windows 内 核 提供 了 许多 服务 ， 以 供应 用 程序 使 用 。 应 用 程序 通过 操作 内 核对 象 来 取 
得 这 些 服务 。 进 程 在 需要 访问 名 为 XXX 的 一 个 内 核对 象 时 ， 调 用 函数 CreateXXX 来 获得 
XXX 实例 的 一 个 句柄 。 这 个 句柄 对 进程 来 说 是 唯一 的 。 如 果 函 数 Create() 失败 ， 则 根据 哪 
个 对 象 正 在 打开 ， 它 可 能 返回 0 或 者 它 可 能 返回 名 为 INVALID_HANDLE_VALUE 的 特殊 常量 ， 
进程 通过 调用 函数 CloseHandle() 可 以 关闭 任何 句柄 ; 如 果 所 有 进程 引用 对 象 的 句柄 数量 
下 降 到 零 ， 则 系统 可 以 删除 这 个 对 象 。 


17.7.2 ”进程 间 共 享 对 象 


Windows 提供 了 三 种 方法 ， 以 便 进程 共享 对 象 。 第 一 种 方法 是 ， 子 进程 继承 对 象 句 
柄 。 当 父 进程 调用 函数 CreateXXX 时 ， 它 提供 结构 SECURITIES_ATTRIBUTES， 并 设 定 字 
段 bInheritHandle 为 TRUE。 这 个 字段 创建 一 个 可 继承 的 句柄 。 然 后 ， 传 递 TRUE 到 函数 
CreateProcess() 的 参数 bInheritHandle， 以 创建 子 进程 。 图 17-8 列 出 了 代码 示例 ， 用 
于 创建 可 为 子 进 程 继承 的 信和 号 量 句 柄 。 


SECURITY_ATTRIBUTES sa; 

sa.nlength = sizeof (sa); 

sa.lpSecurityDescriptor = NULL; 

sa.bInheritHandle = TRUE; 

Handle a_semaphore = CreateSemaphore(&sa, 1, 1, NULL); 


char comand_line [132]; 

ostrstream ostring(command_line, sizeof (command_line)) ; 

ostring << a_semaphore << ends; 

CreateProcess("another_process.exe", command_line, 
NULL, NULL, TRUE 3 





图 17-8 ”人 允许 子 进程 继承 句柄 以 共享 对 象 的 代码 


假设 子 进程 知道 哪些 句柄 是 共享 的 ， 父 进程 与 子 进程 通过 共享 对 象 可 以 进行 进程 间 通 信 。 
在 如 图 17-8 的 例子 中 ， 子 进程 从 第 一 个 命令 行 参数 中 获取 句柄 的 值 ， 然 后 与 父 进程 共享 信号 量 。 
共享 对 象 的 第 二 种 方法 是 : 一 个 进程 在 创建 对 象 时 给 对 象 一 个 名 称 ， 另 一 个 进程 可 以 打开 
这 个 名 称 。 这 种 方法 有 两 个 缺点 : 第 一 个 缺点 ，Windows 没有 提供 任何 方法 来 检查 所 选 名称 对 
象 是 否 已 经 存在 ; 第 二 个 缺点 ， 对 象 名 称 空间 是 全 局 的 ， 没 有 考虑 对 象 类 型 。 例 如 ， 在 需要 两 
个 不 同 对 象 (可 能 不 同类 型 ) 时 ， 两 个 应 用 程序 可 能 创建 和 共享 名 为 “foo” 的 单个 对 象 。 
命名 对 象 有 个 优点 : 不 相关 进程 可 以 容易 地 共享 它们 。 第 一 个 进程 调用 一 个 函数 CreateXXX， 
并 提供 名 称 作 为 参数 。 第 二 个 进程 通过 同样 名 称 来 调用 0penXXX() (aK CreateXxxQ)), M 
而 取得 一 个 句柄 以 共享 对 象 ， 如 图 17-9 所 示 。 


// Process A 


HANDLE a.semaphore = CreateSemaphore(NULL, 1, 1, "MySEM1"); 


// Process B 


HANDLE b_semaphore = OpenSemaphore (SEMAPHORE_ALL_ACCESS , 
FALSE, "MySEMi") ; 





图 17-9 通过 名 称 查找 来 共享 对 象 的 代码 
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共享 对 象 的 第 三 种 方式 是 ， 通 过 函数 DuplicateHandle() 。 这 种 方法 需要 一 些 其 他 的 
进程 间 通信 方法 ， 来 传递 重复 句柄 。 给 定 一 个 进程 句柄 和 该 进程 的 一 个 句柄 的 值 ， 另 一 个 进 
程 可 以 获得 同一 对 象 的 句柄 ， 从 而 共享 它 。 这 个 方法 的 示例 如 图 17-10 所 示 。 


// Process A wants to give Process B access to a semaphore 


// Process A 

HANDLE a_semaphore = CreateSemaphore(NULL, 1, 1, NULL); 
// send the value of the semaphore to Process B 

// using a message or shared memory object 


// Process B 

HANDLE process_a = OpenProcess(PROCESS_ALL_ACCESS, FALSE, 
process_id_of_A) ; 

HANDLE b_semaphore; 

DuplicateHandle(process_a, a_semaphore, 
GetCurrentProcess(), &b_semaphore, 
0, FALSE, DUPLICATE_SAME_ACCESS) ; 

// use b-semaphore to access the semaphore 





图 17-10 通过 传递 句柄 来 共享 对 象 的 代码 


17.7.3 ”进程 管理 


对 于 Windows， 进 程 ( process) 是 应 用 程序 的 加 载 实例 ， 而 线程 (thread) 是 可 由 操作 
系统 调度 的 可 执行 的 代码 单元 。 因 此 ， 每 个 进程 包含 一 个 或 多 个 线程 。 当 一 个 进程 的 某 个 线 
程 调用 CreateProcess() API 时 ， 就 创建 了 另 一 个 进程 。 这 个 程序 加 载 进程 所 用 的 任何 动 
态 链接 库 ， 并 创建 这 个 进程 的 初始 线程 。 其 他 和 额外 线程 可 以 通过 函数 CreateThread() 来 创 
建 。 每 个 线程 创建 了 自己 的 堆栈 ; 堆栈 的 默认 大 小 为 1IMB RAFI CreateThread() 的 
参数 来 另外 指定 。 
17.7.3.1 调度 规则 

Win32 环境 的 优先 级 基于 NT 本 地 内 核 (native kernel) 的 调度 模型 ， 但 是 不 是 所 有 优先 
级 值 都 可 以 选择 。Win32 API 使 用 四 个 优先 级 : 

e IDLE_PRIORITY_CLASS (空闲 优先 级 )(NT 优先 级 4 ) 

e NORMAL_PRIORITY_CLASS (正常 优先 级 )(NT 优先 级 8 ) 

e HIGH_PRIORITY_CLASS (高 优先 级 )(NT 优先 级 13 ) 

e REALTIME_PRIORITY_CLASS (实时 优先 级 )(NT 优先 级 24 ) 
进程 通常 属于 NORMAL_PRIORITY_CLASS ; 除非 其 父 进程 属于 IDLE_PRIORITY_CLASS ， 或 者 
在 调用 CreateProcess 时 指定 了 另 一 个 类 。 进 程 的 优先 级 类 是 进程 中 的 所 有 执行 线程 的 默 
认 。 它 的 更 改 采 用 函数 SetPriorityClass()， 或 者 传递 参数 到 命令 START。 只 有 具有 提高 
调度 优先 级 特权 的 用 户 ， 可 以 移动 进程 到 REALTIME_PRIORITY_CLASS。 默 认 情 况 下 ， 管 理 
员 和 高 级 用 户 具 有 这 种 特权 。 

当 用 户 运 行 交 互 进程 时 ， 系 统 需要 调度 进程 的 线程 ， 以 提供 很 好 的 响应 。 为 此 ， 
Windows 有 个 特殊 调度 规则 ， 以 用 于 NORMAL_PRIORITY_CLASS。Windows 区 分 两 类 进程 : 
前 台 进 程 ， 即 具有 前 台 屏 幕 窗口 的 关联 进程 ; 后台 进程 ， 即 其 他 进程 。 当 进程 进入 前 台 时 ， 
Windows 三 倍 地 增加 所 有 它 的 线程 的 调度 时 间 片 ; 前 台 进 程 的 CPU 密集 线程 也 比 类 似 的 后 
台 进 程 线程 多 运行 三 倍 时 长 。 
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17.7.3.2 ”线程 优先 权 

线程 按 其 类 型 确定 的 初始 优先 级 开始 。 通 过 函数 SetThreadPriority()， 可 以 改变 优 
先 级 。 这 个 函数 带 有 一 个 参数 以 指定 优先 级 ， 它 是 相对 于 其 类 型 的 基础 优先 级 : 

èe THREAD_PRIORITY_LOWEST: base - 2 

© THREAD_PRIORITY_BELOW_NORMAL: base -1 

@ THREAD_PRIORITY_NORMAL: base + 0 

© THREAD_PRIORITY_ABOVE_NORMAL: base + 1 

© THREAD_PRIORITY_HIGHEST: base + 2 

另外 两 个 设 定 也 用 于 调整 优先 级 。 回 想 一 下 17.3.2.2 节 ， 内 核 具 有 两 个 优先 级 类 别 ; 
16 一 31 是 实时 级 ，0 ~ 15 是 可 变 优 先 级 。THREAD_PRIORITY_IDLE 设 定 实时 线程 的 优先 级 
为 16， 而 可 变 优先 级 线程 的 优先 级 为 1。THREAD_PRIORITY_TIME_CRITICAL 设 定 实时 线程 
的 优先 级 为 31， 而 可 变 优先 级 线程 的 优先 级 为 15。 

如 17.3.2.2 节 所 述 ， 内 核 根据 线程 属于 IO 密集 型 或 CPU 密集 型 ， 以 便 动态 调整 可 变 
类 型 线程 的 优先 级 。Win32 API 提供 了 一 种 方法 来 禁用 这 种 调整 ， 就 是 采用 函数 SetProcess 
PriorityBoost() 和 SetThreadPriorityBoost() 。 
17.7.3.3 ”线程 挂 起 和 恢复 

线程 可 以 按 挂 起 状态 (suspended state) 来 创建 ， 也 可 以 稍 后 通过 使 用 函数 Suspend 
Thread() 而 转 到 挂 起 状态 。 在 挂 起 线程 可 以 由 内 核 调度 器 来 调度 之 前 ， 必 须 通 过 使 用 函数 
ResumeThread() 而 移出 挂 起 状态 。 这 两 个 函数 设 定 一 个 计数 器 : 如 果 一 个 线程 挂 起 两 次 ， 
则 在 它 可 以 运行 之 前 必须 恢复 两 次 。 
17.7.3.4 ”线程 同步 

为 了 同步 线程 并 发 访问 共享 对 象 ， 内 核 提供 同步 对 象 ， 如 信和 号 量 和 互 斥 。 这 些 是 调度 需 对 
象 ， 如 17.3.2.2 节 所 述 。 线 程 还 可 以 与 操作 内 核对 象 (如 线程 、 进 程 和 文件 ) 的 内 核 服务 同步 ， 
因为 这 些 也 是 调度 对 象 。 通 过 内 核 调 度 对 象 的 同步 可 以 通过 使 用 函数 WaitForSingle0bject() 
或 WaitForMultiple0bjects() 来 实现 ; 这 些 函 数 等 待 一 个 或 多 个 调度 器 对 象 ， 以 被 发 送 

对 于 只 想 执行 代码 的 同一 进程 的 线程 ， 还 有 另 一 种 同步 方法 。Win32 临界 区 对 象 
(critical section object) 是 用 户 模式 的 互 斥 对 象 ; 它 通 常 可 以 获取 或 释放 ， 而 无 需 进 入 内 核 。 
对 于 多 处 理 器 ，Win32 临界 区 在 等 待 男 一 个 线程 持 有 的 临界 区 被 释放 时 ， 会 尝试 旋转 。 如 果 
旋转 需要 太 长 时 间 ， 则 获取 线程 会 分 配 一 个 内 核 互 斥 (kernel mutex)， 并 放弃 CPU。 临 界 区 
特别 有 效 ， 因 为 只 有 竞争 时 内 核 互 斥 才 被 分 配 ， 并 且 只 有 尝试 旋转 后 才 被 使 用 。 大 多 数 程序 
互 斥 不 会 真正 竞争 ， 所 以 节省 明显 。 

在 使 用 临界 区 之 前 ， 某 个 进程 线程 必须 调用 InitializeCriticalSection()。 每 个 线程 
在 想 要 获取 互 斥 锁 时 调用 EnterCriticalSection() ,然后 再 调用 LeaveCriticalSection() 
来 释放 互 斥 体 。 还 有 一 个 函数 TryEnterCriticalSection()， 它 尝试 获取 互 斥 锁 而 并 不 
阻塞 。 

对 于 想 要 用 户 模式 的 读 写 锁 而 非 互 斥 体 的 程序 ，Win32 支持 轻型 读 写 锁 (Slim Reader-Writer 
Lock，SRWL)。SRW 锁具 有 类 似 于 临界 区 的 API， 如 InitializeSRWLock, AcquireSRWLockXXX 
和 ReleaseSRWLockXXX， 其 中 XXX 是 Exclusive (独占 ) 或 是 Shared (共享 )， 具 体 取 决 
于 线程 对 于 保护 对 象 ， 需 要 写 入 访问 权限 或 只 是 读 取 访问 权限 。Win32 AP 还 支持 条 件 变量 
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(condition variable)， 它 们 与 临界 区 或 SRW 锁 可 以 一 起 使 用 。 
17.7.3.5 REW 

对 于 应 用 程序 和 服务 ， 重 复 创 建 或 删除 用 于 执行 少量 工作 的 线程 ， 可 能 代价 昂贵 。 
Win32 线程 池 为 用 户 模式 程序 提供 了 三 种 服务 ; 可 以 提交 工作 请 求 的 队列 (通过 函数 Submit 
ThreadpoolWork() )， 可 以 捆绑 回调 到 可 等 竺 句柄 的 API (RegesterWaitForSingle0bject() )， 
还 有 API 用 于 处 理 定时 器 (CreateThreadpoolTimer() 和 imerCallbacks ( ) 和 捆绑 回调 到 
IO 完成 队列 (BindIoCompletionCallback() )。 

使 用 线程 池 的 目的 是 提高 性 能 与 减少 内 存 占用 。 线 程 相对 昂贵 ; 无 论 有 多 少 线程 ， 每 个 
处 理 器 一 次 只 能 执行 一 个 线程 。 线 程 池 通 过 稍微 延迟 工作 请 求 (重用 每 个 线程 于 多 个 请 求 ) 
并 提供 足够 线程 来 有 效 利用 机 器 的 CPU， 试 图 降低 可 运行 线程 的 数量 。 等 待 、I/O 和 定时 器 
等 回调 API， 人 允许 线程 池 进 一 步 减少 进程 的 线程 数 ; 与 进程 专用 单独 线程 来 处 理 每 个 可 等 待 
句柄 、 定 时 器 或 完成 端口 相 比 ， 使 用 更 少 线程 。 
17.7.3.6 2H 

FFE (fiber) 是 用 户 模式 代码 ， 它 根据 用 户 定义 的 调度 算法 进行 调度 。 纤 程 完全 是 用 户 
模式 功能 ; 内 核 并 不 知道 它们 存在 。 纤 程 机 制 使 用 Windows 线程 ， 就 像 它们 是 CPU 一 样 执 
行 纤 程 。 纤 程 是 合作 调度 的 ， 意 味 着 它们 永远 不 会 被 抢占 ， 但 是 必须 明确 退让 它们 运行 的 线 
程 。 当 纤 程 退让 线程 时 ， 另 一 个 纤 程 可 以 通过 运行 时 系统 (编程 语言 运行 时 代码 ) 来 调度 到 
这 个 纤 程 。 

系统 通过 调用 ConvertThreadToFiber() 或 CreateFiber() 来 创建 纤 程 。 这 些 函 数 的 
主要 区 别 是 函数 CreateFiber() 并 不 开始 执行 创建 的 纤 程 。 为 了 开始 执行 ， 应 用 程序 必须 
调用 SwitchToFiber()。 应 用 程序 可 以 通过 调用 DeleteFiber() 来 终止 纤 程 。 

对 于 使 用 Win32 API 而 非 兼 容 的 标准 C 库 函 数 的 线程 ， 并 不 建议 使 用 纤 程 。Win32 用 
户 模式 线程 具有 线程 环境 块 (Thread-Environment Block, TEB), TEB 包含 用 于 Win32 API 
的 许多 线程 字段 。 纤 程 必须 共享 它们 赖 以 运行 的 线程 的 TEB。 当 Win32 接口 放置 状态 信息 
到 纤 程 的 TEB， 然 后 这 个 信息 被 不 同 的 纤 程 覆盖 时 ， 可 能 导致 问题 。Win32 API 包括 纤 程 ， 
以 便 移植 旧版 UNIX 的 应 用 程序 ， 这 些 程序 采用 用 户 模式 线程 模型 (如 Pthreads) 来 编写 。 
17.7.3.7 UMS 与 ConcRT 

用 户 模 式 调度 (User-Mode Scheduling，UMS) 是 Windows 7 的 新 机 制 ， 解 决 了 纤 程 的 
多 个 限制 。 首 先 ， 回 想 一 下 ， 纤 程 在 执行 Win32 API 时 是 不 可 靠 的 。 因 为 它们 没有 TEB。 
当 线 程 运行 纤 程 在 内 核 中 阻塞 时 ， 由 于 内 核 调度 器 接管 调度 ， 用 户 调度 器 暂时 失去 CPU 的 
控制 权 。 当 纤 程 改变 线程 的 内 核 状 态 ， 如 优先 级 或 伪装 令 令 牌 ， 或 者 当 它 们 启动 异步 IJO 
时 ， 可 能 会 有 问题 。 

由 于 每 个 Windows 线程 实际 上 是 两 个 线程 : 一 个 内 核 线程 (KT) 和 一 个 用 户 线程 (UT), 
UMS 提供 一 个 替代 模型 。 每 种 类 型 的 线程 都 有 自己 的 堆栈 与 自己 的 保存 寄存 器 的 集合 。KT 
和 UT 对 于 程序 员 显 示 为 单个 线程 ， 因 为 UT 不 能 阻塞 但 是 必须 总 是 进入 内 核 ， 因 此 隐 式 切 
换 到 相应 KT. UMS 使 用 每 个 UT 的 TEB 来 唯一 标识 UT。 当 UT 进入 内 核 时 ， 显 式 切换 到 
KT， 这 个 KT 对 应 于 当前 TEB 标识 的 UT。 内 核 不 知道 哪个 UT 正在 运行 的 原因 是 ，UT 可 
以 调用 用 户 模式 调度 器 ， 就 像 纤 程 一 样 。 但 是 在 UMS 中 ， 调 度 器 切换 UT, 包括 切换 TEB, 

当 UT 进 入 内 核 时 ， 其 KT 可 能 会 阻塞 。 当 这 种 情况 发 生 时 ， 内 核 切 换 到 调度 线程 
(UMS 称 其 为 主线 程 (primary thread) )， 并 使 用 这 个 线程 以 重新 进入 用 户 模式 调度 器 ， 以 便 
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它 能 选择 另 一 个 UT 来 运行 。 最 终 ， 阻 塞 KT 会 完成 操作 ， 并 准备 返回 用 户 态 。 由 于 UMS 
已 经 重新 进入 用 户 模 式 调度 器 来 运行 不 同 的 UT，UMS 排队 已 完成 KT 的 对 应 UT 到 用 户 模 
式 的 完成 列表 。 当 用 户 模式 调度 器 选择 一 个 新 UT 来 切换 ， 它 可 以 检查 完成 列表 ， 并 将 列表 
上 的 任何 UT 视 为 调度 候选 。 

不 同 于 纤 程 ，UMS 并 不 直接 用 于 程序 。 编 写 用 户 模 式 调度 器 的 细节 可 能 很 有 挑战 性 ， 
UMS 不 包括 这 样 的 调度 器 。 相 反 ， 调 度 器 来 自 构建 在 UMS 之 上 的 编程 语言 库 。Microsoft 
Visual Studio 2010 带 有 ConcRT ( Concurrency Runtime， 并 发 运行 时 )， 这 是 用 于 C++ 的 并 
发 编程 框架 。ConcRT 提供 了 一 个 用 户 模 式 调 度 器 ， 以 及 分 解 程序 成 为 任务 的 功能 ， 然 后 这 
些 任 务 可 以 调度 到 可 用 的 CPU。ConcRT 支持 par-for(parallel-for， 并 行 循环 ) 风格 的 构造 ， 
以 及 基本 资源 管理 和 任务 同步 的 原 语 。UMS 的 主要 功能 如 图 17-11 所 示 。 


KT, 38 





只 有 主线 程 按 用 户 模式 来 运行 陷阱 代码 切换 到 停放 KT 
KT 块 全 主线 程 回 到 用 户 模式 
KT 解锁 和 等 待 寺 排 队 UT 完 成 


17.7.3.8 Winsock 

Winsock 是 Windows 套 接 字 API。Winsock 是 会 话 层 接 口 ， 大 部 分 兼容 UNIX 的 套 接 
F, 但 也 添加 了 一 些 Windows 的 扩展 。 它 为 可 能 具有 不 同 寻 址 方案 的 许多 传输 协议 提供 了 
一 个 标准 接口 ， 以 便 任 何 Winsock 应 用 程序 可 以 运行 于 任何 Winsock 兼容 协议 栈 。Winsock 
在 Windows Vista 中 进行 了 重大 更 新 ， 添 加 了 跟踪 、IPv6 支持 、 伪 装 、 新 的 安全 API 和 许多 
其 他 功能 。 

Winsock 遵循 Windows 开放 系统 架构 ( Windows Open System Architecture, WOSA) 模 
型 ， 它 提供 了 一 个 标准 服务 提供 者 接口 ( Service Provider Interface，SPI)， 以 用 于 应 用 程序 
和 网 络 协议 。 应 用 程序 可 以 加 载 和 外 载 分 层 协议 ， 以 便 在 传输 协议 层 之 上 构建 额外 的 功能 ， 
如 额外 的 安全 性 。Winsock 支持 异步 操作 与 通知 、 可 靠 组 播 、 安 全 套 接 字 和 内 核 模式 套 接 字 ; 
还 支持 更 简单 的 使 用 模型 ， 如 函数 WSAConnectByName () ， 它 接受 字符 串 为 目标 ， 这 些 字符 
串 表示 服务 器 名 称 或 IP 地 址 和 目的 端口 的 服务 或 端口 号 。 


17.7.4 使 用 Windows 消息 传递 的 进程 间 通 信 


Win32 应 用 程序 通过 多 种 方法 来 处 理 进程 间 通 信 。 一 种 方法 是 ， 使 用 共享 内 核对 象 ; 男 一 
种 方法 是 ， 使 用 Windows 消息 传递 功能 ， 这 种 方法 很 受 Win32 GUI 应 用 程序 的 欢迎 。 一 个 线程 
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可 以 通过 PostMessage(), PostThreadMessage() . SendMessage() . SendThreadMessage () 
或 SendMessageCallback() ， 发 送 消息 到 另 一 个 线程 或 窗口 。 邮 寄 (post) 消息 与 发 送 消息 
的 方式 不 同 : 邮寄 程序 是 异步 的 ; 它们 立即 返回 ， 而 且 调 用 线程 并 不 知道 何 时 实际 传递 消息 。 
发 送 (send) 程序 是 同步 的 : 它们 阻塞 调用 者 ， 直 到 消息 已 经 交付 与 处 理 。 

除了 发 送 消息 之 外 ,线程 可 以 通过 消息 发 送 数 据 。 因 为 进程 具有 单独 的 地 址 空间 ， 所 以 
数据 必须 复制 。 系 统 通 过 调用 SendMessage() 复制 数据 ， 通 过 数据 结构 COPYDATASTRUCT 
来 发 送 WM_COPYDATA 类 型 的 消息 ，COPYDATASTRUCT 包含 传输 数据 的 长 度 和 地 址 。 当 发 送 消 
息 时 ，Windows 复制 数据 到 新 的 内 存 块 ， 并 传递 新 块 的 虚拟 地 址 到 接收 进程 。 

每 个 Win32 线程 都 有 自己 的 输入 队列 ， 以 便 从 中 接收 消息 。 如 果 Win32 应 用 程序 没有 
调用 GetMessage() 来 处 理 输入 队列 的 事件 ， 则 队列 会 填 满 大 约 5 秒 之 后 ， 系 统 将 应 用 程 
序 标记 为 “不 响应 ”(Not Responding). 


17.75 ”内 存 管理 


Win32 API 提供 多 种 方式 ， 以 便 应 用 程序 使 用 内 存 : 虚拟 内 存 、 内 存 映射 文件 、 堆 和 线 
程 本 地 存储 等 。 
17.7.5.1 虚拟 内 存 

应 用 程序 调用 函数 VirtualAlloc() 保留 或 者 提交 虚拟 内 存 ， 调 用 盟 数 VirtualFree() 
回收 或 者 释放 内 存 。 这 些 函 数 使 得 应 用 程序 可 以 指定 内 存 分 配 的 虚拟 地 址 。 它 们 能 够 按 页 面 
大 小 的 倍数 来 操作 。 这 些 函 数 的 例子 如 图 17-12 所 示 。 


// allocate 16 MB at the top of our address space 

void *buf = VirtualAlloc(0, 0x1000000, MEM RESERVE | MEM_TOP_DOWN， 
PAGE_READWRITE) ; 

// commit the upper 8 MB of the allocated space 

VirtualAlloc(buf + 0x800000, 0x800000, MEM COMMIT, PAGE_READWRITE) ; 

// do something with the memory 


// now decommit the memory 

VirtualFree(buf + 0x800000, 0x800000, MEM_DECOMMIT) ; 
// release all of the allocated address space 
VirtualFree(buf, 0, MEM-RELEASE) ; 





图 17-12 ”分配 虚拟 内 存 的 代码 片段 


进程 通过 调用 函数 VirtualLock()， 可 以 锁定 一 些 已 提交 的 页 面 到 物理 内 存 。 进 程 可 
以 锁定 页 面 的 最 大 数 为 30， 除 非 进程 调用 函数 SetProcessWorkingSetSize() 以 增加 最 大 
的 工作 集 大 小 。 
17.7.5.2 ”内 存 映 射 文件 

应 用 程序 使 用 内 存 的 另 一 种 方式 是 ， 内 存 映射 一 个 文件 到 它 的 地 址 空间 。 内 存 映射 也 是 
两 个 进程 共享 内 存 的 一 种 方便 方式 : 两 个 进程 映射 相同 文件 到 它们 的 虚拟 内 存 。 内 存 映射 是 
个 多 级 过 程 ， 如 图 17-13 的 示例 所 示 。 

如 果 进 程 想 要 映射 一 些 地 址 空间 ， 只 是 为 了 与 另 一 个 进程 共享 内 存 区域 ， 则 无 需 文件 。 
进程 采用 一 个 0xffffffff 的 文件 句柄 和 特定 大 小 调用 困 数 CreateFileMapping()。 生 成 
的 文件 映射 对 象 可 以 通过 继承 、 名 称 查找 和 句柄 复制 来 共享 。 

17.753 # 
堆 提 供 了 应 用 程序 使 用 内 存 的 第 三 种 方式 ， 如 同 标准 C 语言 的 malloc() 和 free()。 
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Win32 环境 的 堆 是 保留 地 址 空间 的 区 域 。 当 Win32 进程 初始 化 时 ， 它 采用 默认 堆 (default 
heap) 来 创建 。 因 为 大 多 数 Win32 应 用 程序 是 多 线程 的 ， 所 以 访问 堆 需 要 同步 ， 以 保护 堆 的 
空间 分 配 数 据 结构 不 被 多 线程 的 并 发 更 新 所 破坏 。 


// open the file or create it if it does not exist 

HANDLE hfile = CreateFile("somefile", GENERIC READ | GENERIC WRITE, 
FILE_SHARE READ | FILE SHARE WRITE, NULL, 
OPEN_ALWAYS, FILE ATTRIBUTE NORMAL, NULL); 

// create the file mapping 8 MB in size 

HANDLE hmap = CreateFileMapping(hfile, PAGE_READWRITE, 


SEC_COMMIT, 0, Ox800000, "SHM_1"); 

// now get a view of the space mapped 

void *buf = MapView0fFile(hmap, FILE MAP ALL ACCESS, 
0, 0, 0, 0x800000) ; 

// do something with the mapped file 


// now unmap the file 
UnMapViewOfFile (buf); 
CloseHand1le(hmap) ; 
CloseHandle(hfile) ; 





图 17-13 用 于 内 存 映射 文件 的 代码 片段 


Win32 提供 了 多 个 堆 管 理 函 数 ， 以 便 进程 可 以 分 配 和 管理 私有 堆 。 这 些 函 数 是 HeapCreate() 、 
HeapAlloc()、 HeapRealloc(), HeapSize(), HeapFree() 以 及 HeapDestroy()。Win32 
API 还 提供 了 函数 HeapLock() 和 HeapUnlock()， 使 得 线程 获得 堆 的 互 斥 访问 。 与 函数 
VirtualLock() PE], 这些 函数 只 能 执行 同步 ; 它们 不 能 锁定 页 面 到 物理 内 存 。 

最 初 的 Win32 堆 已 经 过 优化 ， 以 便 有 效 利用 空间 。 对 于 长 时 间 运 行 的 较 大 服务 器 程序 ， 
地 址 空间 的 碎片 问题 更 为 严重 。Windows XP 引入 的 低 碎 片 堆 ( Low-Fragmentation Heap, 
LFH) 的 新 设计 ， 极 大 地 减少 了 碎片 问题 。Windows7 堆 管 理 器 根据 需要 自动 打开 LFH。 
17.7.5.4 线程 本 地 存储 

应 用 程序 使 用 内 存 的 第 四 种 方式 是 ， 采 用 线程 本 地 存储 (Thread-Local Storage, TLS) 机 
制 。 依 赖 全 局 或 静态 数据 的 函数 ， 通 常 在 多 线程 环境 中 不 能 正常 工作 。 例 如 ，C 语言 的 运行 
时 函数 strtok() 采用 静态 变量 ， 以 便 在 解析 字符 串 时 跟踪 它 的 当前 位 置 。 为 使 两 个 并 发 线 
程 正确 执行 strtok()， 它 们 和 需要 各 自 的 当前 位 置 (current position) Ht, TLS 提供 了 一 种 
方法 来 维护 变量 实例 ， 这 些 变 量 对 于 正在 执行 的 函数 是 全 局 的 ,但 是 不 与 任何 其 他 线程 共享 。 

TLS 提供 动态 和 静态 的 方法 来 创建 线程 本 地 存储 。 
动态 方法 如 图 17-14 所 示 。TLS 机 制 分 配 全 局 堆 存储 ， |// Teserve a slot for a variable 
并 将 其 附加 到 TEB (Windows 为 每 个 用 户 模式 线程 分 |// set it to the value 10 


TisSetValue(var_index, 10); 


配 一 个 TEB)s TEB 随时 可 以 被 线程 所 访问 ， 不 仅 用 于 // get the value 


int var TisGetValue(var_index) ; 


TLS, 而 且 用 于 所 有 的 用 户 模式 的 线程 状态 信息 。 // release the index 
为 了 使 用 线程 本 地 静态 变量 ， 应 用 程序 声明 变量 如 [THsEree(Cvar-index); 


下 ， 以 确保 每 个 线程 都 有 自己 的 私有 副本 : 17-14 ”动态 线程 本 地 存储 的 代码 
-declspec(thread) DWORD cur_pos = 0; 


17.8 he 


Microsoft 设计 的 Windows 是 一 个 具有 扩展 性 的 、 可 移植 性 的 操作 系统 ， 也 就 是 说 ， 
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能 够 利用 新 的 技术 和 硬件 。Windows 支持 多 种 操作 环境 和 对 称 多 处 理 器 ， 包 括 32 位 处 理 
器 、64 位 处 理 器 及 NUMA 计算 机 。 提 供 基 本 服务 的 内 核对 象 的 使 用 与 支持 客户 机 - 服务 
器 的 计算 ， 使 得 Windows 支持 各 种 应 用 环境 。Windows 提供 虚拟 内 存 、 集 成 缓存 以 及 抢占 
式 调 度 。 它 支持 精细 的 安全 机 制 ， 并 包括 国际 化 的 功能 。Windows 运行 在 各 种 各 样 的 计算 
机 上 ， 所 以 用 户 可 以 选择 和 升级 硬件 以 满足 预算 和 性 能 的 要 求 ， 而 不 需要 改变 运行 的 应 用 
程序 。 


习题 

17.1 什么 情况 下 会 使 用 Windows 延迟 过 程 调用 功能 ? 

17.2 ”什么 是 句柄 ? 进程 如 何 获取 句柄 ? 

17.3 ”讨论 虚拟 内 存 管理 器 的 管理 方案 。VM 管理 器 如 何 提高 性 能 ? 

17.4 讨论 利用 Windows 提供 的 不 可 访问 页 面 功能 的 有 用 应 用 程序 。 

17.5 ”讨论 用 于 本 地 过 程 调用 的 数据 通信 的 三 种 技术 。 什 么 设置 最 有 利于 应 用 不 同 消息 传递 技术 ? 

17.6 ”什么 管理 Windows 缓存 ? 如 何 管理 缓存 ? 

17.7 NTFS 目录 结构 如 何不 同 于 UNIX 操作 系统 的 目录 结构 ? 

17.8 ”进程 是 什么 ? Windows 如 何 管理 进程 ? 

17.9 Windows 提供 的 纤 程 抽象 是 什么 7 它 如 何不 同 于 线程 抽象 ? 

17.10 Windows 7 的 用 户 模 式 调度 (UMS) 如 何不 同 于 纤 程 ? 纤 程 和 UMS 之 间 有 什么 折 中 ? 

17.11 UMS 认为 一 个 线程 有 两 个 部 分 : 一 个 UT 和 一 个 KT。 人 允许 UT 与 它们 的 KT 一 起 继续 并 行 执 
41, 会 有 什么 用 途 ? 

17.12 ”允许 KT 和 UT 执行 在 不 同 处 理 器 上 ， 会 有 什么 性 能 折 中 ? 

17.13 ”自我 映射 为 何 占用 大 量 虚拟 地 址 空间 ， 但 并 未 占用 额外 虚拟 内 存 ? 

17.14 ”自我 映射 如 何 便 于 VM 管理 器 ， 以 移 人 页 表 页 面 到 磁盘 和 从 磁盘 移出 页 表 页 面 ? 页 表 页 面 保存 
到 磁盘 的 何 处 ? 

17.15 当 Windows 系统 休眠 时 ， 系 统 电源 关闭 。 假 设 在 系统 休眠 状态 下 ， 更 改 了 CPU RAM 数量 。 
你 认为 这 还 能 工作 吗 ? 为 什么 能 或 者 为 什么 不 能 ? 

17.16 举 个 例子 , 说明 在 Windows 中 挂 起 和 恢复 线程 时 ， 挂 起 计数 有 何 用 途 ? 


推荐 读物 

Russinovich 和 Solomon ( 2009 ) 概述 了 Windows 7， 并 深入 讨论 了 系统 内 部 与 组 件 的 技术 细节 。 

Brown ( 2000 ) 详细 讨论 了 Windows 的 安全 体系 结构 。 

Microsoft 开 发 人 员 网 络 库 (Developer Network Library) (http://msdn.microsoft.com) 提供 了 
Windows 和 其 他 Microsoft 产品 的 大 量 信息 ， 包 括 所 有 已 发 布 API 的 文档 。 

Iseminger (2000) X Windows 活动 目录 提供 了 不 错 的 参考 。Richter (1997) 深入 讨论 了 通过 
Win32 API 编写 程序 。Silberschatz & (2010 ) 提供 B+ 树 的 不 错 讨论 。 

Windows 内 核 的 2005 WRK 版 的 源 代码 、 幻 灯 片 以 及 其 他 CRK 课程 材料 ， 可 从 www.microsoft. 
com/WindowsAcademic 获得 ， 以 供 高 校 使 用 。 
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第 18 章 | 


Operating System Concepts, Ninth Edition 


有 影响 的 操作 系统 


现在 已 经 学 习 了 操作 系统 的 基本 概念 (CPU 调度 、 内 存 管 理 、 进 程 等 )， 我 们 可 以 分 析 
这 些 概 念 如 何 用 于 多 个 较 老 的 但 却 很 有 影响 的 操作 系统 。 有 些 系统 (如 XDS-940 Al THE 系 
统 ) 与 众 不 同 ， 其 他 系统 (如 OS/360 ) 应 用 广泛 。 描 述 顺 序 突出 了 系统 的 相似 与 差异 ; 而 不 
是 严格 按照 年 代 或 重要 顺序 。 操 作 系 统 专业 的 学 生 都 应 熟悉 所 有 这 些 系 统 。 

本 章 末 尾 的 推荐 读物 ， 包 括 深入 阅读 这 些 早期 系统 的 参考 资料 。 无 论 技术 内 容 或 风格 ， 
这 些 系统 设计 人 员 的 论文 都 是 非常 重要 的 。 

本 章 目 标 

e 解释 操作 系统 特征 如 何 随 着 时 间 从 大 型 计算 机 迁移 到 更 小 的 。 

o 讨论 多 个 历史 上 重要 的 操作 系统 的 特征 。 


18.1 特征 迁移 


研究 早期 架构 和 操作 系统 的 一 个 原因 是 ， 曾 经 只 能 运行 于 极 大 系统 的 特征 可 能 最 终 移 到 
饭 小 系统 。 确 实 ， 大 型 计算 机 和 微型 计算 机 的 操作 系统 分 析 说 明了 ， 曾 经 只 有 大 型 计算 机 才 
有 的 许多 特征 现 已 移 到 微型 计算 机 。 因 此 ， 操 作 系 统 的 同样 概念 适合 各 种 计算 机 : 大 型 计算 
机 、 小 型 计算 机 、 微 型 计算 机 和 手持 设备 。 为 了 理解 现代 操作 系统 ， 那 么 你 需要 认识 特征 迁 
移 的 主题 和 许多 操作 系统 特征 的 悠久 历史 (如 图 18-1 所 示 )。 





图 18-1 操作 系统 概念 和 特征 迁移 
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特征 迁移 的 一 个 很 好 的 例子 是 从 多 路 信息 计算 服务 (MULTiplexed Information and Computing 

Service, MULTICS) 操作 系统 开始 。MULTICS， 作 为 效用 计算 (computing utility), M 
1965 年 至 1970 年 ， 在 MIT 开发 。 它 运行 于 复杂 的 大 型 计算 机 (GE 645 )。MULTICS 开发 
的 许多 想法 ， 随 后 用 于 贝尔 实验 室 (MULTICS 开发 的 原始 合作 伙伴 之 一 ) 的 UNIX 设计 。 
UNIX 操作 系统 ， 大 约 在 1970 年 左右 为 PDP-11 小 型 机 而 设计 。1980 年 左右 ，UNIX 特征 成 
为 微型 计算 机 的 类 似 UNIX 操作 系统 的 基础 。 这 些 特 性 也 包含 在 多 个 最 近 的 微型 计算 机 操作 
系统 中 ， 如 Microsoft Windows, Windows XP 和 Mac OS X 操作 系统 。Linux 也 包括 一 些 相 
同 的 特征 。PDA 现在 也 有 这 些 特征 。 


18.2 早期 系统 


现在 我 们 给 出 早期 计算 机 系统 的 历史 概述 。 我 们 应 该 注意 ， 计 算 历史 远 远 超过 “计算 
机 ”， 如 织 机 和 计算 器 。 然 而 ， 我们 只 讨论 20 世纪 的 计算 机 。 

20 世纪 40 年 代 以 前 ， 计 算 设备 的 设计 与 实现 是 为 了 执行 特定 的 固定 任务 。 修 改 任何 一 
个 任务 需要 大 量 的 精力 和 体力 。 到 了 20 世纪 40 年 代 ， 所 有 这 些 改变 了 ， 因 为 Alan Turing 和 
John von Neumann (和 同事 们 ), 分别 和 一 起 构思 了 更 通用 的 存储 程序 ( stored program) 计算 [800 
机 。 这 样 的 机 器 拥有 程序 存储 和 数据 存储 ， 其 中 程序 存储 提供 指令 以 便 操作 数据 。 

这 种 基本 计算 机 概念 很 快 产生 了 一 些 通用 计算 机 ; 但 是 由 于 时 间 和 二 次 世界 大 战 期 间 的 
秘密 开发 ， 这 些 机 器 的 大 部 分 历史 模糊 了 。 很 可 能 ， 第 一 台 真 正 工作 的 存储 程序 通用 计算 机 
是 Machester Mark 1, F 1949 年 成 功 运行 。 第 一 台 商 业 计算 机 Ferranti Mark 1, F 1951 年 
开始 销售 ， 为 其 后 代 。 

早期 计算 机 是 体积 巨大 的 机 器 ， 通 过 控制 台 运行 。 程 序 员 ， 也 是 计算 机 系统 的 操作 员 ， 
会 写 程序 ， 从 操作 员 控 制 台 上 直接 操作 机 器 。 首 先 ， 从 前 面板 开关 (一 次 一 个 指令 )， 或 从 
纸 带 ， 或 从 钻 孔 卡 ， 可 手动 加 载 程序 到 内 存 。 接 着 ， 按 下 相应 按钮 ， 以 便 设置 起 始 地 址 并 开 
始 执行 程序 。 随 着 程序 运行 ， 程 序 员 / 操作 员 可 以 通过 控制 台 显示 灯 来 监视 执行 。 如 果 发 现 
错误 ， 则 程序 员 可 以 停止 程序 ， 检查 内 存 和 寄存 器 的 内 容 ， 并 直接 通过 控制 台 调 试 程序 。 输 
出 可 被 打印 ,或 被 打 孔 到 纸 带 或 卡片 以 便 以 后 打印 。 


18.2.1 专用 计算 机 系统 


随 着 时 间 的 推移 ， 开 发 了 更 多 的 软件 和 硬件 。 读 卡 器 、 行 式 打印 机 和 磁带 已 经 司空 见 
惯 。 汇 编 器 、 加 载 器 和 链接 器 等 ， 为 了 简化 编程 任务 而 被 设计 。 常 用 枯 数 的 库 也 被 创建 。 常 
用 函数 可 以 复制 到 新 的 程序 ， 而 无 需 重 写 ， 从 而 提供 软件 可 重用 性 。 

执行 IO 的 程序 尤其 重要 。 每 个 新 的 1/0 设备 都 有 自己 的 特点 ， 需 要 仔细 编程 。 每 种 
IO 设备 都 要 编写 一 个 特殊 的 子 程序 ， 叫 作 设备 驱动 程序 。 设 备 驱 动 程序 知道 ， 应 该 如 何 使 
用 具体 设备 的 缓冲 区 、 标 志 、 寄 存 器 、 控 制 位 和 状态 位 等 。 每 种 设备 类 型 都 有 自己 的 驱动 程 
序 。 一 个 简单 任务 ， 如 从 纸 带 读 人 器 读 取 字符 ， 可 能 涉及 特定 设备 的 复杂 操作 序列 。 不 是 每 
次 都 要 编写 必要 代码 ， 而 是 简单 地 从 库 中 读 取 驱动 程序 。 

JÆ, FORTRAN, COBOL 和 其 他 语言 的 编译 器 也 出 现 了 ， 使 得 编程 任务 更 加 容易 ， 但 是 
计算 机 操作 更 加 复杂 。 例 如 ， 为 了 准备 执行 FORTRAN 程序 ， 程 序 员 首 先 需 要 加 载 FORTRAN 
编译 器 到 计算 机 。 编 译 器 通常 保存 在 磁带 上 ， 因 此 合适 的 磁带 需要 安装 到 磁带 驱动 器 。 程 序 通 
过 读 卡 器 读 出 ， 并 写 到 另 一 磁带 。FORTRAN 编译 器 生成 汇编 语言 输出 ， 然 后 必须 汇编 。 这 个 
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过 程 需要 安装 带 有 汇编 器 的 另 一 磁带 。 汇 编 器 的 输出 需要 与 支持 库 程 序 一 起 链接 。 最 后 ， 二 进 


(801) 制 对 象形 式 的 程序 就 可 以 执行 了 。 像 以 前 一 样 ， 它 可 以 加 载 到 内 存 ， 并 从 控制 台 对 其 调试 。 


运行 一 个 作业 ， 涉 及 大 量 的 设置 时 间 (setup time)。 每 个 作业 包括 许多 单独 步骤 : 
. FORTRAN 编译 器 磁带 
运行 编译 器 
印 载 编 译 器 磁带 
加 载 汇编 器 
运行 汇编 器 
缉 载 汇编 器 磁带 
加 载 目标 程序 

8. 运行 目标 程序 
如 果 任 何 步骤 出 现 错误 ， 则 程序 员 或 者 操作 员 必 须 重新 开始 。 每 个 作业 步骤 都 可 能 涉及 加 载 
和 和 印 载 磁带 、 纸 带 和 穿孔 卡片 。 

作业 的 设置 时 间 是 个 真正 的 问题 。 当 磁带 被 安装 时 或 程序 员 操 作 控 制 台 时 ，CPU 处 于 
空闲 。 记 住 : 在 早期 计算 机 很 少 并 且 昂 贵 。 计算机 本 身 可 能 花费 数 百 万 美元 ， 而 旦 还 不 包 
括 运营 费用 ,诸如 电源 、 冷 却 、 程 序 员 等 。 因 此 ,计算 机 时 间 非 党 宝贵， 所 有 者 想 要 尽 可 能 
地 使 用 它们 。 他 们 需要 高 利用 率 (utilization)， 以 便 从 投资 中 获得 尽 可 能 多 的 利益 。 


18.2.2 ”共享 计算 机 系统 


解决 方案 包括 两 个 方面 。 首 先 ， 需 要 雇用 专业 的 计算 机 操作 员 。 程 序 员 不 再 操作 机 器 。 
一 旦 一 个 作业 完成 ， 操 作 员 可 以 开始 下 一 个 。 因 为 操作 员 比 程序 员 具 有 安装 磁带 的 更 多 经 
w, 设置 时 间 就 缩短 了 。 程 序 员 提供 所 有 需要 的 卡片 或 磁带 ， 以 及 如 何 运行 作业 的 简短 描 
述 。 当 然 ， 操 作 员 无 法 在 控制 台 上 调试 不 正确 的 程序 ， 因 为 操作 员 不 理解 程序 。 因 此 ， 在 程 
序 出 错 的 情况 下 ， 内 存 和 寄存 器 的 数据 就 会 转 储 ， 并 且 程 序 员 必须 根据 转 储 来 调试 。 转 储 内 
存 和 寄存 器 允许 操作 员 立 即 继续 使 用 下 个 作业 ， 但 让 程序 员 的 调试 问题 更 加 困难 。 

其 次 ， 具有 相似 需求 的 作业 可 以 放 在 一 起 ， 作 为 一 个 组 在 计算 机 上 运行 ， 以 减少 安装 时 
间 。 例 如 ， 假 设 操作 员 收 到 一 个 FORTRAN 作业 、 一 个 COBOL 作业 和 另 一 个 FORTRAN 
作业 。 如 果 按 照 这 个 顺序 来 运行 它们 ， 则 他 必须 首先 为 FORTRAN 设置 (加载 编译 器 磁带 
等 )， 然 后 为 COBOL 设置 ， 最 后 再 为 FORTRAN 设置 。 然 而 ， 
如 果 把 两 个 FORTRAN 程序 当 作 一 个 批 处 理 来 运行 ， 则 可 以 为 
FORTRAN 只 设置 一 次 ， 从 而 节省 操作 员 时 间 。 

但 是 还 有 问题 。 例 如 ， 当 一 个 作业 结束 时 ， 操 作 员 必 须 注 
意 到 它 已 经 停止 了 (通过 观察 控制 台 )， 确 定 它 为 何 停止 (正常 
或 异常 终止 )， 转 储 内 存 和 寄存 器 (如 有 必要 )， 采 用 下 个 作业 
来 加 载 适 当 设备 ， 并 重新 启动 计算 机 。 在 从 一 个 作业 转 到 下 个 
作业 的 过 程 中 ，CPU 是 闲置 的 。 

为 了 克服 这 个 闲置 时 间 ， 人 们 开发 了 自动 作业 排序 (automatic 
job sequencing)。 通 过 这 种 技术 ， 创 建 了 第 一 个 初步 操作 系统 。 
称 为 常 驻 监 视 器 (resident monitor) 的 小 程序 被 创建 了 ， 以 转 
换 控 制 从 一 个 作业 到 下 个 作业 (图 18-2 )。 常 驻 监视 器 总 是 在 ”图 18-2 常 驻 监视 器 内 存 布局 
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内 存 中 (或 者 常 驻 )。 

当 计算 机 开机 时 ， 常 驻 监视 器 就 被 调用 ， 它 会 转移 控制 到 程序 。 当 程序 终止 时 ， 它 会 返 
回 控制 到 常 驻 监视 器 ， 以 便 接着 继续 下 个 程序 。 因 此 ， 常 驻 监 视 器 会 自动 地 从 一 个 程序 转 到 
另 一 个 程序 或 从 一 个 作业 转 到 另 一 个 作业 。 

但 是 ， 常 驻 监视 器 如 何 知道 执行 哪个 程序 ? 以 前 ,操作 员 都 有 一 份 简 短 描述 ， 来 说 明 
什么 程序 运行 什么 数据 。 控 制 卡 ( control card) 用 于 直接 提供 这 种 信息 给 监视 器 。 这 个 想法 
很 简单 。 除 了 作业 的 程序 或 数据 外 ,程序 员 提 供 控 制 卡 ， 以 包含 常 驻 监视 器 的 指令 来 指示 
运行 什么 程序 。 例 如 ， 普 通用 户 程序 可 能 需要 运行 下 面 三 个 程序 之 一 : FORTRAN 编译 器 
(FTN)、 汇 编 器 (ASM) 或 用 户 程序 (RUN)。 我们 可 以 使 用 以 下 单独 的 控制 卡 : 

$FTN 一 一 执行 FORTRAN 编译 器 
$ASM 一 一 执行 汇编 器 
$RUN 一 一 执行 用 户 程序 
这 些 卡 告诉 常 驻 监视 器 运行 哪个 程序 。 
我 们 可 以 使 用 另外 两 个 控制 卡 ， 以 界定 每 个 作业 的 界限 : 
$JOB 一 一 作业 的 第 一 张 控制 卡 
$END 一 一 作业 的 最 后 一 张 控 制 卡 
这 两 张 控制 卡 对 于 程序 员 使 用 的 机 器 资源 的 计 费 可 能 很 有 用 处 。 人 参数 可 以 用 来 定义 作业 名 
称 、 计 费 账 户 等 。 其 他 功能 的 控制 卡 也 可 以 定义 ， 如 请 求 操作 员 加 载 或 印 载 磁带 等 。 

控制 卡 的 一 个 问题 是 ， 如 何 从 数据 卡 或 程序 卡 区 分 它们 。 通 常 的 解决 方案 是 ， 通 过 卡 上 
的 特殊 字符 或 图 案 来 识别 它们 。 多 个 系统 使 用 第 一 列 的 美元 符号 ($) 来 标识 控制 卡 。 其 他 
的 使 用 不 同 的 代码 。IBM 的 JCL (Job Control Language， 作 业 控 制 语言 ) 在 前 两 列 中 使 用 斜 
杠 (//)。 图 18-3 显示 了 简单 批 处 理 系 统 的 卡片 组 设置 的 示例 。 





图 18-3 简单 批 处 理 系统 的 卡片 组 

因此 ， 常 驻 监 视 器 具有 多 个 可 识别 的 部 分 : 

e 控制 卡 解 释 器 (control-card interpreter) 负责 在 执行 时 读 出 和 执行 卡片 上 的 指令 。 

o 加 载 器 (loader) 被 控制 卡 解释 器 调用 ， 以 不 断 地 加 载 系统 程序 和 应 用 程序 到 内 存 。 

© 设备 驱动 程序 ( device driver)， 可 用 于 控制 卡 的 解释 器 和 系统 IO 设备 的 加 载 器 。 通 
常 ， 系 统 和 应 用 程序 链接 到 这 些 相同 的 设备 驱动 程序 ， 提 供 操作 的 连续 性 ， 并 且 节 
省 内 存 空 间 和 编程 时 间 。 

这 些 批 处 理 系统 工作 相当 不 错 。 常 驻 监视 器 根据 控制 卡 指 示 ， 以 便 提供 自动 作业 排序 。 
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[804] 当 控 制 卡 指示 一 个 程序 需要 运行 时 ， 监 视 器 加 载 程 序 到 内 存 ， 并 转移 控制 到 它 。 当 程序 完成 


时 ， 它 转移 控制 回 到 监视 器 ， 以 读 取 下 个 控制 卡 ， 加 载 相 应 程序 ， 依 次 类 推 。 这 种 循环 不 断 
重复 ， 直 到 这 个 作业 的 所 有 控制 卡 被 解释 为 止 。 然 后 ， 监 视 器 自动 继续 下 个 作业 。 

采用 自动 作业 排序 的 批 处 理 系统 可 以 提高 性 能 。 问 题 很 简单 ， 因 为 人 类 比 计算 机 惕 得 
多 。 因 此 ， 采 用 操作 系统 软件 替代 人 工 操作 是 可 取 的 。 自 动作 业 排 序 消 除了 人 工 设置 时 间 和 
作业 排序 。 

然而 ， 即 使 这 样 安排 ，CPU 还 是 经 常 闲置 的 。 问 题 在 于 机 械 UVO 设备 的 速度 ， 因 为 机 
械 设 备 比 电子 设备 本 身 就 慢 。 即 使 很 慢 的 CPU 也 按 微 秒 来 工作 ， 每 秒 执行 数 千 条 指令 。 相 
比 之 下 ， 人 快速 读 卡 器 每 分 钟 可 以 读 取 1200 张 卡 (或 每 秒 20 张 卡 )。 因 此 ，CPU 和 IO 设备 
之 间 的 速度 差异 可 能 是 三 个 数量 级 或 更 多 。 当 然 ， 随 着 时 间 推 移 ， 技 术 进步 使 得 IO 设备 更 
tk, (E CPU 速度 增加 更 快 ， 所 以 问题 不 仅 没有 得 到 解决 ， 反 而 加 剧 了 。 


18.2.3 BBO 


IO 问题 的 一 个 常见 解决 方案 是 ， 采 用 磁带 单元 取代 慢 的 读 卡 器 (输入 设备 ) 和 行 式 打 
印 机 (输出 设备 )。20 世纪 50 年 代 末 和 60 年 代 初 的 大 多 数 计算 机 系统 都 是 批 处 理 系统 ， 它 
们 从 读 卡 器 读 取 ， 并 写 到 行 式 打印 机 或 卡片 穿孔 机 。 然 而 ，CPU 没有 直接 读 取 卡 片 ; 相反 ， 
这 些 卡片 首先 通过 单独 设备 来 复制 到 磁带 。 当 磁带 足够 满 时 ， 就 被 取 下 并 转 到 计算 机 。 当 程 
序 需 要 输入 一 张 卡片 时 ， 就 从 磁带 读 取 相 应 记录 。 同 样 ， 输 出 写 到 磁带 ， 而 且 磁 带 内 容 以 后 
打印 。 读 卡 器 和 行 式 打印 机 都 是 脱 机 (off-line) 操作 的 ， 而 非 通过 主机 (图 18-4 )。 





图 18-4 1/O 设备 的 操作 


脱 机 操作 的 明显 优点 是 ， 主 机 不 再 受 限于 读 卡 器 和 行 式 打印 机 的 速度 ， 而 只 受 限于 更 
快 磁带 单元 的 速度 。 所 有 IO 使 用 磁带 的 技术 可 以 用 到 任何 类 似 设备 (如 读 卡 器 、 卡 片 穿孔 
机 、 绘 图 仪 、 纸 带 和 打印 机 )。 

脱 机 操作 的 真正 收益 在 于 ， 单 个 CPU 可 能 使 用 多 个 读 卡 器 到 磁带 和 磁带 到 打印 机 系统 。 
如 果 CPU 处 理 的 输入 速度 是 读 卡 器 读 取 卡 片 速度 的 两 倍 ， 则 两 个 读 卡 器 同时 工作 可 以 产生 
足够 磁带 ， 使 得 CPU 保持 忙碌 。 然 而 ， 也 有 缺点 ， 即 运行 特定 作业 需要 更 长 延迟 。 首 先 ， 
作业 必须 读 到 磁带 。 接 着 ， 它 必须 等 待 ， 直 到 有 足够 的 其 他 作业 被 读 到 磁带 以 “ 填 满 ” 它 。 
然后 ， 磁 带 必须 重新 卷 起 ， 件 载 ， 人 工 带 到 CPU， 安 装 到 空闲 磁带 驱动 器 。 当 然 ， 对 于 批 处 
理 系统 ， 这 个 过 程 不 是 不 合理 的 。 许 多 类 似 作业 可 以 被 成 批 地 放 到 磁带 ， 然 后 带 到 计算 机 。 

虽然 作业 的 脱 机 准备 持续 了 一 段 时 间 ， 但 是 在 大 多 数 系统 中 它 很 快 被 替换 了 。 磁 盘 系 
统 变 得 唾 手 可 得 ， 并 且 大 大 改善 了 脱 机 操作 。 磁 带 系 统 的 一 个 问题 是 ， 读 卡 器 无 法 写 到 磁 
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带 一 端 而 CPU 从 另 一 端 读 取 。 在 倒 带 和 读 取 之 前 整个 磁带 必须 写 完 ， 因 为 磁带 本 质 上 是 
顺序 访问 设备 (sequential access device)。 磁 盘 系 统 由 于 属于 随机 存 取 设 备 ( random-access 
device)， 消 除了 这 个 问题 。 因 为 磁头 可 以 从 磁盘 的 一 个 区 域 移 到 另 一 个 区 域 ， 所 以 它 可 以 从 
读 卡 器 存储 新 卡 的 磁盘 区 域 迅速 移 到 CPU 读 取 “ 下 个 ” 卡 所 需 的 位 置 。 

对 于 磁盘 系统 ， 卡 片 被 读 卡 器 直接 读 到 磁盘 。 卡 片 图 像 的 位 置 被 记录 在 由 操作 系统 保 
存 的 表格 内 。 当 作业 执行 时 ， 操 作 系 统 通过 读 取 磁 盘 以 满足 读 卡 器 的 输入 请 求 。 同 样 ， 当 
作业 请 求 打 印 机 输出 一 行 时 ， 该 行 被 复制 到 系统 缓冲 区 ， 并 被 写 到 磁盘 。 当 作业 完成 时 ， 
输出 被 实际 打印 。 这 种 处 理 形式 称 为 同步 外 设 在 线 操作 或 假 脱 机 (Simultaneous Peripheral 
Operation On-Line, SPOOL) (图 18-5 )。 从 本 质 上 讲 ， 假 脱 机 利用 磁盘 作为 一 个 巨大 的 缓冲 
区 ， 以 便 尽 可 能 地 提前 读 取 输 入 设备 ， 也 便于 存储 输出 文件 直到 输出 设备 能 够 接收 它们 。 





18-5 ” 假 脱 机 


假 脱 机 也 用 于 处 理 远程 站 点 的 数据 。CPU 通过 通信 路 径 发 送 数据 到 远程 打印 机 (或 者 接 
受 来 自 远程 读 卡 器 的 完整 输入 作业 )。 远 程 处 理 按 自己 的 速度 来 完成 ， 无 需 CPU 的 干预 。 在 
处 理 完 成 时 ，CPU 才 需 得 到 通知 ， 以 便 假 脱 机 下 一 批 数 据 。 

假 脱 机 重要 一 个 作业 的 IO 与 其 他 作业 的 计算 。 即 使 对 于 简单 系统 ， 假 脱 机 程序 可 以 在 
读 取 一 个 作业 的 输入 时 ， 打 印 另 一 个 作业 的 输出 。 在 此 期 间 ， 还 有 另 一 个 作业 (或 其 他 多 个 
作业 ) 可 能 执行 ， 读 取 磁 盘 的 “ 卡 ”， 而 且 “ 打 印 ”输出 行 到 磁盘 。 

假 脱 机 对 于 系统 性 能 具有 直接 的 有 益 影 响 。 通 过 一 些 磁 盘 空 间 和 几 个 表 的 代价 ， 一 个 作 
业 的 计算 和 其 他 作业 的 IO 可 以 同时 发 生 。 因 此 ， 假 脱 机 可 以 保持 CPU 和 1O 设备 按 更 高 
速率 来 运行 。 假 脱 机 技术 自然 导致 了 多 道 程序 设计 技术 ， 这 是 所 有 现代 操作 系统 的 基础 。 


18.3 Atlas 


Atlas 操作 系统 是 英国 曼彻斯特 大 学 ， 在 20 世纪 50 年 代 末 和 60 年 代 初 设计 的 。 当 时 许 
多 新 颖 的 基本 特征 已 经 成 为 现代 操作 系统 的 标准 部 分 。 设 备 驱动 程序 是 系统 的 主要 部 分 。 此 
外 ， 通 过 一 组 称 为 额外 代码 (extra code) 的 特殊 指令 ， 增 加 了 系统 调用 。 

Atlas 是 个 采用 假 脱 机 的 批 处 理 操作 系统 。 假 脱 机 人 允许 系统 根据 外 围 设备 的 可 用 性 来 
调度 作业 ; 外 围 设备 包括 磁带 单元 、 读 纸 带 机 、 纸 带 穿 孔 机 、 行 式 打印 机 、 读 卡 器 和 打卡 
机 等 。 

然而 ，Atlas 的 最 显著 特征 是 内 存 管理 。 当 时 ， 核 心 内存 (core memory) 是 新 的 且 贵 的 。 
许多 计算 机 ， 如 IBM 650， 采 用 磁 鼓 作为 主 存 。Atlas 系统 采用 磁 鼓 作为 主 存 ， 但 是 它 有 少 
量 核心 内 存 ， 用 作 磁 鼓 的 高 速 缓存 。 请 求 调 页 用 于 在 核心 内 存 与 磁 鼓 之 间 自 动 传输 信息 。 
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Atlas 系统 使 用 具有 48 位 字 的 英国 计算 机 。 地 址 是 24 位 的 , 但 是 采用 十 进 制 编码 ， 允 
许 一 百 万 字 的 寻 址 空间 。 当 时 ， 这 已 算是 个 巨大 的 地 址 空间 。Atlas 的 物理 内 存 包 括 : 98KB 
字 的 磁 鼓 和 16KB 字 的 核心 内 存 。 内 存 分 为 512 字 的 页 面 ， 因 此 物理 内 存 有 32 帧 。32 个 寄 
存 器 的 关联 内 存 实现 了 虚拟 地 址 到 物理 地 址 的 映射 。 

如 果 发 生 了 页 面 错 误 ， 则 调用 页 面 蔡 换 算法 。 有 一 个 内 存 帧 总 是 保持 空闲 的 ， 使 得 磁 
鼓 转移 可 以 立即 开始 。 页 面 替 代 算法 根据 过 去 行为 预测 未 来 内 存 的 访问 行为 。 每 当 帧 被 访问 
时 ， 它 的 引用 位 就 被 设置 。 每 隔 1024 条 指令 就 把 引用 位 读 到 内 存 ， 并 保留 这 些 位 的 最 后 32 
个 值 。 这 个 历史 用 于 定义 : h, 最近 引用 以 来 的 时 间 ; t:， 最 后 两 个 引用 之 间 的 间隔 。 按 照 
以 下 顺序 ， 选 择 页 面 进行 蔡 换 : 

1. 丘 > 如 + 1 的 任何 页 面 ， 可 认为 不 再 使 用 ， 可 以 替换 。 

2. WRT A MAA n 和 t:， 则 替换 具有 最 大 值 h-t 的 页 面 。 
页 面 蔡 换算 法 假设 ,程序 循环 地 访问 内 存 。 如 果 最 后 两 个 引用 之 间 的 时 间 是 ;s:， 则 另外 一 个 
引用 应 在 时间 单 元 以 后 。 如 果 引 用 没有 发 生 (na > )， 则 假定 该 页 面 不 再 被 用 ， 并 可 被 替 
换 。 如 果 所 有 页 面 仍 在 使 用 ， 则 最 长 时 间 不 需要 的 页 面 会 被 替换 。 到 下 次 引用 的 时 间 预 计 为 
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18.4 XDS-940 


XDS-940 操作 系统 是 20 世纪 60 年 代 初 加 利 福 尼 亚 州 立 大 学 伯克利 分 校 设计 的 。 与 
Atlas 系统 一 样 ， 它 使 用 分 页 进行 内 存 管 理 。 与 Atlas 系统 不 同 ， 它 是 个 分 时 系统 。 分 页 只 
用 于 重 定位 ; 它 不 用 于 请 求 调 页 。 任 何 用 户 进程 的 虚拟 内 存 由 16KB 字 组 成 ， 而 物理 内 存 由 
64KB 字 组 成 。 每 个 页 面 由 2KB 字 组 成 。 页 表 保存 在 寄存 器 中 。 因 为 物理 内 存 大 于 虚拟 内 
存 ， 所 以 多 个 用 户 进 程 可 以 同时 位 于 内 存 。 当 页 面包 含 了 只 读 可 重 入 代码 时 ， 用 户 数量 通过 
页 面 共享 可 以 增加 。 进 程 保存 在 磁 鼓 里 ， 并 根据 需要 从 内 存 中 调 进 和 调 出 。 

XDS-940 系统 是 通过 修改 XDS-930 而 构建 的 。 这 种 修改 是 对 基本 计算 机 的 典型 更 改 ， 
以 允许 正确 编写 操作 系统 。 它 增加 了 用 户 监督 模式 。 某 些 指 令 ， 如 IO 和 Halt， 定 义 为 特权 
的 。 在 用 户 模式 下 试图 执行 特权 指令 会 陷 人 操作 系统 。 

系统 调用 指令 增加 到 用 户 模式 指令 集 。 这 条 指令 用 于 创建 新 的 资源 ， 如 文件 ， 从 而 允许 
操作 系统 管理 物理 资源 。 例 如 ， 文 件 按 磁 鼓 的 256 字 的 块 来 分 配 。 位 图 ， 用 于 管理 空闲 的 磁 
鼓 块 。 每 个 文件 都 有 一 个 索引 块 ， 其 指针 指向 实际 的 数据 块 。 索 引 块 被 链接 在 一 起 。 

XDS-940 系统 还 提供 系统 调用 ， 以 允许 进程 来 创建 、 启 动 、 暂 停 和 销毁 子 进程 。 程 序 
员 可 以 构建 进程 系统 。 多 个 进程 可 以 共享 内 存 ， 以 便 通信 和 同步 。 进 程 创建 定义 树 形 结构 ， 
其 中 一 个 进程 是 树 的 根 结 点 ， 而 其 子 进程 是 树 的 结 点 ， 位 于 根 结 点 之 下 。 每 个 子 进 程 可 以 反 
过 来 创建 更 多 的 子 进程 。 


18.5 THE 


THE 操作 系统 是 由 荷兰 Eindhoven 的 Technische Hogeschool 在 20 世纪 60 年 代 中 期 设 
计 的 。 它 是 批 处 理 系统 ， 运 行 在 一 台 荷 兰 产 的 计算 机 EL X8 上 ， 该 机 具有 32KB 的 27 位 的 
字 。 这 个 系统 的 主要 特点 是 : 清晰 的 设计 ， 特 别 是 它 的 层次 结构 ， 以 及 采用 同步 信号 量 的 并 
发 进程 集 的 使 用 。 

与 XDS-940 系统 的 进程 不 同 ，THE 系统 的 进程 集 是 静态 的 。 操 作 系 统 本 身 被 设计 为 一 
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组 协同 进程 。 另 外， 创建 了 5 个 用 户 进程 来 担任 活动 代理 ， 用 于 编译 、 执 行 和 打印 用 户 程 
序 。 当 一 个 作业 完成 时 ， 进 程 会 返回 到 输入 队列 ， 以 选择 另 一 作业 。 

系统 使 用 基于 优先 权 的 CPU 调度 算法 。 优 先 权 每 隔 两 秒 就 要 重 算 一 次 ， 与 最 近 所 用 的 
CPU 时 间 成 反比 (最 近 8 ~ 10 秒 )。 这 个 方案 给 予 VO 密集 型 进程 和 新 进程 以 更 高 的 优先 权 。 

内 存 管理 因为 缺乏 硬件 支持 而 受到 限制 。 然 而 ， 由 于 系统 受到 限制 并 且 只 能 采用 Algol 
编写 用 户 程序 ， 所 以 使 用 软件 分 页 方案 。Algol 编译 器 自动 生成 调用 系统 程序 ， 确 保 请 求 
信息 位 于 内 存 ， 如 有 必要 可 以 交换 。 备 份 存储 是 512KB 字 的 磁 鼓 。 采 用 了 512 字 的 页 面 和 
LRU 页 面 替换 策略 。 

THE 系统 的 另 一 个 主要 特点 是 死 锁 控制 。 银 行家 算法 用 于 提供 死 锁 避免 。 

与 THE 系统 密切 相关 的 是 Venus 系统 。Venus 系统 采用 分 层 设 计 ， 使 用 信和 号 量 同 步 进 
程 。 然 而 ， 设 计 的 更 低层 用 微 码 来 实现 ， 提 供 了 更 快 的 系统 。 分 页 分 段 内 存 用 于 内 存 管理 。 
此 外 ， 该 系统 被 设计 成 分 时 系统 ， 而 不 是 批 处 理 系统 。 


18.6 RC 4000 


RC 4000 系统 ， 像 THE 系统 一 样 ， 主 要 因 设 计 理念 而 著名 。 它 是 在 20 世纪 60 ERK, 
由 Regnecentralen， 特 别 是 Brinch-Hansen， 针 对 丹麦 4000 计算 机 而 设计 的 。 它 的 目标 不 是 
设计 批 处 理 系 统 、 分 时 系统 或 任何 其 他 特定 系统 。 它 的 真正 目标 是 创建 操作 系统 核心 程序 或 
内 核 ， 在 此 基础 上 可 以 构建 一 个 完整 操作 系统 。 因 此 ;系统 结构 是 分 层 的 ， 而 且 只 是 提供 了 
更 低 的 层次 (包括 内 核 )。 

内 核 支持 一 组 并 发 进程 。 采 用 轮转 CPU 调度 程序 。 尽 管 进 程 可 以 共享 内 存 ， 但 是 通信 
和 同步 的 主要 机 制 是 由 内 核 提供 的 消息 系统 (message system ) 。 进 程 通信 采用 长 度 固 定 为 8 
个 字 的 消息 。 所 有 消息 保存 在 公共 缓冲 池 中 的 缓冲 区 。 当 消息 缓冲 区 不 再 需要 时 ， 它 会 返回 
到 缓冲 池 。 

每 个 进程 关联 一 个 消息 队列 (message queue)。 它 包含 已 经 发 到 这 个 进程 但 尚未 收 到 的 
所 有 消息 。 消 息 从 队列 中 按 FIFO 顺序 来 删除 。 这 个 系统 支持 4 个 原始 操作 ， 它 们 是 原子 执 
行 的 : 

e send-message (in receiver, in message, out buffer) 

è wait-message (out sender, out message, out buffer) 

e send-answer (out result, in message, in buffer) 

e wait-answer (out result, out message, in buffer) 

最 后 两 个 操作 允许 进程 一 次 交换 多 条 消息 。 

这 些 原 语 要 求 每 个 进程 按 FIFO 顺序 处 理 消息 队列 ， 当 其 他 进程 处 理 消 息 时 它 会 阻塞 。 
为 了 消除 这 些 限制 ， 开 发 人 员 提 供 两 个 额外 的 通信 原 语 ， 以 便 允 许 进程 等 待 下 个 消息 的 到 达 
或 按 任 何 顺 序 回答 和 处 理 队 列 。 

èe wait-event (in previous-buffer, out next-buffer, out result) 

® get-event (out buffer) 

1O 设备 也 按 进程 来 处 理 。 设 备 驱动 程序 是 转换 设备 中 断 和 寄存 器 到 消息 的 代码 。 因 
此 ， 进 程 通过 发 送 消息 到 终端 来 写 终端 。 设 备 驱动 程序 会 收 到 消息 ， 并 输出 字符 到 终端 。 输 
和 字符 会 中 断 系统 ， 并 传 到 设备 驱动 程序 。 设 备 驱动 程序 会 根据 输入 字符 创建 一 条 消息 ， 并 
发 送 到 等 待 进程 。 
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18.7 CTSS 


CTSS (Compatible Time-Sharing System, WAD RA) 是 由 MIT 设计 的 试验 分 时 系 
统 ， 首 先 出 现在 1961 年 。 它 是 在 IBM 7090 上 实现 的 ， 最 终 支 持 32 个 交互 用 户 。 用 户 具有 
一 套 交 互 命令 ， 人 允许 通 过 终端 操作 文件 和 编译 与 运行 程序 。 

IBM 7090 有 32KB W A Æ, H 36 位 的 字 组 成 。 监 督 程序 采用 5KB 字 ， MAPA 
27KB。 用 户 内 存 映 射 可 在 内 存 和 快速 磁 鼓 之 间 交 换 。CPU 调度 采用 了 多 级 反馈 队列 算法 。 
第 i 级 的 时 间 片 是 2xi 个 时 间 单 位 。 如 果 程 序 在 一 个 时 间 片 内 没有 完成 CPU 计算 ， 则 它 被 
移 到 队列 的 下 一 层 ， 并 得 到 两 倍 的 时 间 。 最 高 级 别 的 程序 (拥有 最 短 时 间 片 ) 会 首先 运行 。 
程序 的 最 初级 别 是 由 其 大 小 决定 的 ， 所 以 时 间 片 至 少 与 交换 时 间 一 样 长 。 

CTSS 非常 成 功 ， 一 直 使 用 到 1972 年 。 虽 然 它 有 局 限 性 ， 但 是 它 成 功 表 明了 : 分 时 
是 一 种 方便 而 实用 的 计算 模式 。CTSS 的 一 个 结果 是 分 时 系统 的 快速 开发 ， 另 一 个 结果 是 
MULTICS 的 开发 。 


18.8 MULTICS 


MULTICS 操作 系统 ， 作 为 CTSS 的 自然 扩展 ， 从 1965 年 到 1970 年 是 在 MIT 设计 的 。 
CTSS 和 其 他 早期 分 时 系统 非常 成 功 ， 从 而 导致 强烈 需求 以 便 继续 快速 开发 更 大 更 好 的 系 
统 。 随 着 更 大 计算 机 的 可 用 ，CTSS 设计 师 开 始 创建 一 个 分 时 工具 ， 以 像 电力 一 样 提供 计算 
服务 。 在 整个 城市 内 ， 大 型 计算 机 系统 通过 电话 线 连 到 办 公 室 和 家 庭 的 终端 。 操 作 系 统 可 能 
是 个 连续 运行 的 分 时 系统 ， 拥 有 共享 程序 和 数据 的 庞大 文件 系统 。 

MULTICS 由 MIT、GE( 它 后 来 把 计算 机 部 门 卖 给 了 Honeywell) 和 贝尔 实验 室 (1969 
年 退出 该 项 目 组 ) 的 一 个 团队 来 共同 设计 。 基 本 GE 635 计算 机 ， 主 要 通过 分 页 分 段 内 存 硬 
件 的 增加 ， 被 改进 为 新 的 计算 机 系统 ， 称 为 GE 645。 

在 MULTICS 中 ， 每 个 虚拟 地 址 包括 一 个 18 位 的 段 码 和 一 个 16 位 的 字 偏 移 ; 每 个 段 按 
IKB 字 的 页 面 来 分 页 ; 采用 了 第 二 次 机 会 页 面 替 换算 法 。 

分 段 虚 拟 地 址 空间 被 合并 到 文件 系统 。 每 个 段 都 是 文件 ， 可 以 通过 文件 名 称 来 寻 址 。 文 
件 系统 本 身 是 多 级 树 形 结构 ， 人 允许 用 户 创建 自己 的 子 目 录 结 构 。 

与 CTSS 一 样 ，MULTICS 的 CPU 调度 采用 多 级 反馈 队列 。 保 护 实现 采用 每 个 文件 关联 
的 访问 列表 与 执行 进程 的 保护 环 集合 。 这 个 系统 几乎 全 部 采用 PL 语言 编写 ， 包 含 约 30 万 
行 代码 。 它 被 扩展 到 多 处 理 机 系统 ， 人 允许 在 系统 继续 运行 时 抽出 CPU 以 便 维护 。 


18.9 IBM OS/360 


操作 系统 开发 的 最 长 战线 无 疑 属于 IBM 计算 机 的 操作 系统 。 早 期 的 IBM 计算 机 ， 如 
IBM 7090 和 IBM 7094， 是 公共 IO 程序 开发 的 主要 例子 ; 随后 开发 的 是 常 驻 监督 器 、 特 权 
指令 、 内 存 保护 以 及 简单 的 批 处 理 。 这 些 系统 通常 由 不 同 场所 单独 开发 出 来 。 因 此 ，IBM H 
临 许 多 问题 ， 如 不 同 的 计算 机 、 不 同 的 语言 以 及 不 同 的 系统 软件 。 

IBM/360， 最 初出 现在 20 世 纪 60 年 代 中 期 ， 就 是 为 了 改变 这 种 状况 而 设计 的 。 
IBM/360 ( Mealy 等 ( 1966 ) ) 设计 为 一 系列 的 计算 机 ， 包 含 从 小 型 商务 计算 机 到 超大 型 科研 
计算 机 的 整个 领域 。 这 些 系 统 都 只 需要 一 套 软件 ， 都 使 用 了 同样 的 操作 系统 : OS/360。 这 种 
安排 是 为 了 减少 IBM 的 维护 问题 ， 并 且 允 许 用 户 自 由 移动 程序 和 应 用 程序 从 一 个 IBM 系统 
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副 另 一 个 IBM 系统 。 

遗憾 的 是 ，OS/360 试图 为 所 有 用 户 做 所 有 事情 。 结 果 ， 没 有 一 项 任务 做 得 很 好 。 文 件 
系统 包括 了 一 个 类 型 字段 以 便 定义 文件 类 型 ; 不 同文 件 类 型 用 于 定义 固定 长 度 和 非 固定 长 度 
的 记录 文件 、 分 块 和 不 分 块 的 文件 。 由 于 采用 连续 分 配 ， 所 以 用 户 必须 估算 每 个 输出 文件 的 
大 小 。JCL (Job Control Language， 作 业 控 制 语言 ) 为 每 个 可 能 选项 都 增加 了 参数 ， 使 得 普 
通用 户 难 以 理解 。 

内 存 管理 程序 受到 架构 牵制 。 虽 然 使 用 基 址 寄存 器 的 寻 址 模式 ， 但 是 程序 可 以 访问 和 
修改 基 址 寄存 器 ， 这 样 CPU 可 以 生成 绝对 地 址 。 这 种 安排 防止 了 动态 重 定位 ; 程序 在 加 载 
时 被 绑 定 到 物理 内 存 。 这 个 操作 系统 包括 两 个 独立 版 本 : OS/MFT (使 用 固定 区 域 ) 和 OS/ 
MVT (使 用 可 变 区 域 )。 

这 个 系统 是 由 成 千 上 万 的 程序 员 通过 汇编 语言 编写 的 ， 结 果 有 数 百 万 行 的 代码 。 操 作 系 
统 本 身 的 代码 和 表格 需要 大 量 内 存 。 操 作 系 统 开 销 常常 消耗 全 部 CPU 周期 的 一 半 。 随 后 的 
数 年 里 ， 新 的 版 本 不 断 开 发 出 来 ， 以 便 添 加 特征 与 修复 错误 。 然 而 ， 修 复 一 个 错误 通常 会 在 
系统 的 某 个 其 他 部 分 中 造成 另 一 错误 ， 所 以 系统 中 的 已 知 错误 数量 保持 不 变 。 

相对 IBM/370 4244, OS/360 增加 了 虚拟 内 存 。 底 层 硬件 提供 了 段 页 式 的 虚拟 内 存 。 新 
版 OS 采用 不 同方 法 使 用 硬件 。OS/VS1 创建 了 一 个 大 的 虚拟 地 址 空间 ， 并 在 虚拟 内 存 中 运 
行 OS/MFT。 因 此 ， 操 作 系 统 本 身 是 分 页 的 ， 用 户 程 序 也 是 。OS/VS2 Release 1 在 虚拟 内 存 
中 运行 OSIMVT。 最 后 ，OS/VS2 Release 2， 现 在 被 称 为 MVS， 为 每 个 用 户 提供 自己 的 虚拟 
内 存 。 

MVS 基本 还 是 批 处 理 操 作 系 统 。CTSS 系统 运行 在 IBM 7094 +, 但 是 MIT 开发 人 员 
UA, 360 (IBM 7094 的 后 续 产 品 ) 的 地 址 空间 对 于 MULTICS 系统 来 说 实在 太 小 ， 因 此 
他 们 改变 了 供应 商 。 然 后 ，IBM 决定 创建 自己 的 分 时 系统 ，TSS/360。 与 MULTICS 一 样 ， 
TSS/360 应 该 是 个 大 型 的 分 时 的 系统 。 基 本 360 架构 在 模型 67 中 得 以 修改 ， 以 便 提 供 虚 拟 
内 存 。 多 家 客户 由 于 预期 TSS/360， 购 买 了 360/67. 

然而 ，TSS/360 延迟 了 ， 所 以 在 TSS/360 可 用 之 前 ， 其 他 分 时 系统 作为 临时 系统 而 
开发 出 来 。0S/360 添加 了 分 时 选项 (Timing-Sharing Option, TSO). IBM 的 Cambridge 
Scientific Center 开发 了 作为 单 用 户 系统 的 CMS ， 还 开发 了 CP/67 以 提供 虚拟 机 来 运行 它 。 

当 TSS/360 最 终 交 付 时 ， 它 却 是 失败 的 。 它 太 大 而 且 太 慢 。 因 此 ， 没 有 客户 从 临时 系 
统 转 到 TSS/360 系统 。 现 在 ，IBM 分 时 系统 主要 由 MVS fy TSO 或 CP/67 的 CMS (更 名 为 
VM) 来 提供 。 

TSS/360 和 MULTICS 都 没有 取得 商业 成 功 。 什 么 出 错 了 ? 部 分 问题 是 这 些 先 进 系统 太 
大 太 复 杂 ， 以 致 难以 理解 。 另 一 个 问题 是 ， 可 以 从 一 个 大 型 远程 计算 机 上 获得 计算 能 力 的 假 
设 。 然 而 ， 小 型 机 出 现 了 ， 并 减少 了 大 型 单 片 系 统 的 需求 。 工 作 站 和 个 人 计算 机 随后 也 出 来 
了 ， 使 得 计算 能 力 越 来 越 接 近 最 终 用 户 。 


18.10 TOPS-20 


DEC 在 历史 上 创造 了 许多 有 影响 力 的 计算 机 系统 。DEC 相关 的 最 著名 操作 系统 可 能 是 
VMS， 这 是 一 种 受 欢迎 的 面向 企业 的 系统 ， 它 作为 OpenVMS (Hewlett-Packard 的 产品 ) H 
前 仍 在 使 用 。 但 是 DEC 的 最 有 影响 的 操作 系统 也 许 是 TOPS-20。 

在 1970 年 左右 ，TOPS-20 开始 作为 BBN (Bold, Beranek, and Newman) 的 研究 项 目 。 
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BBN 采用 了 面向 业务 的 运行 TOPS-10 的 DEC PDP-10 计算 机 ， 增 加 了 硬件 内 存 分 页 系统 以 
便 实 现 虚 拟 内 存 ， 编 写 了 新 的 操作 系统 以 便 计算 机 利用 新 的 硬件 功能 。 这 个 结果 是 TENEX, 
一 个 通用 分 时 系统 。DEC 然后 购买 了 TENEX 版 权 ， 并 创建 了 具有 内 置 硬件 分 页 器 的 新 计算 
机 。 产 生 的 系统 是 DECSYSTEM-20 和 TOPS20 操作 系统 。 

TOPS-20 有 一 个 高 级 命令 行 解释 器 ， 根 据 用 户 需要 提供 帮助 。DECSYSTEM-20 由 于 功 
能 强大 和 价格 合理 ， 成 为 当时 最 为 流行 的 分 时 系统 。1984 4F, DEC 停止 了 36 位 PDP-10 i+ 
算 机 方面 的 工作 ， 以 便 专注 运行 VMS 的 32 位 VAX 系统 。 


18.11 CP/M 与 MS/DOS 


早期 的 爱好 者 计算 机 通常 通过 工具 包 来 构造 ， 而 且 一 次 运行 一 个 程序 。 随 着 计算 机 组 件 
的 改进 ， 系 统 变 得 更 为 先进 。20 世纪 70 年 代 ， 这 些 计算 机 的 早期 “标准 ”操作 系统 是 CP/M 
( Control Program/Monitor)， 由 Digital Research, Inc. 的 Gary Kindall 编写 。CP/M 主要 运行 
在 第 一 代 “ 个 人 计算 机 ”的 CPU， 即 8 位 Intel 8080。CP/M 最 初 只 支持 64KB 内 存 ， 一 次 
只 运行 一 个 程序 。 当 然 ， 它 是 基于 文本 的 ， 具 有 命令 解释 程序 。 命 令 解 释 程序 类 似 于 当时 其 
他 操作 系统 中 的 那些 ， 比 如 DEC 的 TOPS-10。 

当 IBM 进入 个 人 计算 机 业务 时 ， 它 决定 让 Bill Gates 及 其 公司 来 编写 新 的 操作 系统 ， 以 
用 于 所 选 的 16 位 CPU, Bl Intel 8086。 这 个 操作 系统 ，MS-DOS， 类 似 于 CP/M, 但 拥有 更 
丰富 的 内 置 命令 集 ， 再 次 大 多 以 TOPS-10 为 模型 。 从 1981 年 开始 并 持续 到 2000 年 ，MS- 
DOS 成 为 当时 的 最 流行 的 个 人 计算 机 操作 系统 。 它 支持 640KB 的 内 存 ， 当 要 超出 这 个 限度 
时 能 够 使 用 “延伸 ”和 “扩展 ”内 存 。 然 而 ， 它 缺乏 现代 操作 系统 的 基本 功能 ， 特 别 是 保护 
内 存 。 


18.12 Macintosh OS 与 Windows 


随 着 16 位 CPU 的 出 现 , 个 人 计算 机 的 操作 系统 可 以 变 得 更 为 先进 、 功 能 更 为 丰富 、 使 
用 更 为 方便 。Apple Macintosh 计算 机 可 以 说 是 ， 具 有 专 为 家 庭 用 户 设 计 的 GUI 的 第 一 代 计 
算 机 。 当 然 ， 从 1984 年 开始 ， 它 相当 成 功 了 一 段 时 间 。 它 通过 鼠标 在 屏幕 上 指点 和 选择 ， 
并 带 有 许多 实用 程序 以 便利 用 新 的 用 户 界面 。1984 年 ， 硬 盘 驱 动 器 相对 昂贵 ; 所 以 在 默认 
情况 下 它 只 有 400KB 容量 的 软盘 驱动 器 。 

原来 的 Mac OS 只 运行 在 苹果 计算 机 上 ， 慢 慢 地 因 Microsoft Windows (从 1985 年 1.0 
版 开始 ) 而 黯然 失色 ，Microsoft Windows 被 许可 运行 在 众多 公司 的 许多 不 同 计算 机 上 。 随 
着 微 处 理 器 CPU 发 展 到 具有 高 级 功能 的 32 位 蕊 片 ， 如 保护 内 存 和 上 下 文 切 换 ， 这些 操 作 系 
统 增加 了 以 前 只 在 大 型 机 和 小 型 机 才 具 有 的 功能 。 随 着 时 间 推 移 ， 个 人 计算 机 变 得 同样 强 
大 ， 对 于 许多 目的 更 加 有 用 。 随 着 小 型 机 的 淡出 ， 取 而 代 之 的 是 通用 和 专用 “服务 器 ”。 虽 
然 个 人 计算 机 的 容量 和 性 能 不 断 提高 ， 但 是 服务 器 在 内 存 、 磁 盘 空 间 、 可 用 CPU 的 数量 和 
速度 等 方面 ， 往 往 保持 领先 。 现 在 ， 服 务 器 通常 运行 在 数据 中 心 或 机 房 ， 而 个 人 计算 机 位 于 
旧 上 或 桌 旁 ， 可 以 互相 通信 ， 也 可 以 与 服务 器 通信 。 

Apple fil Microsoft 的 桌面 计算 机 现在 仍然 继续 ， 新 版 的 Windows 和 Mac OS 试图 超越 
对 方 的 特征 、 可 用 性 和 应 用 程序 功能 。 其 他 操作 系统 ， 如 AmigaOS 和 OS/2， 也 已 经 出 现 
了 ,但 是 没有 成 为 两 大 领先 桌面 操作 系统 的 长 期 竞争 对 手 。 同 时 ， 多 种 多 样 的 Linux 继续 获 
得 越 来 越 多 技术 用 户 的 欢迎 ， 其 至 得 到 非 技 术 用 户 的 欢迎 ,包括 连 到 计算 机 网 络 的 每 个 孩子 


ISX BPOHREAA 561 


一 台 笔 记 本 (One Lap Per Child, OLPC)(http://laptop.org/). 


18.13 Mach 


Mach 操作 系统 源 自 Accent 操作 系统 ， 由 卡 内 基 梅 隆 大 学 开发 。Mach 的 通信 系统 和 方 
法 理念 是 从 Accent 中 衍生 出 来 的 ,但 是 许多 系统 的 其 他 重要 部 分 (如 虚拟 内 存 系统 、 任 务 
和 线程 管理 ) 是 从 头 开 发 的 。 

Mach 工作 始 于 20 世纪 80 年 代 中 期 ， 这 个 操作 系统 是 根据 以 下 三 个 关键 目标 来 设计 的 : 

© 模仿 4.3 BSD UNIX， 使 得 UNIX 系统 的 可 执行 文件 可 以 在 Mach 下 正确 运行 。 

e 现代 操作 系统 ， 可 以 支持 多 种 内 存 模型 ， 以 及 并 行 和 分 布 式 的 计算 。 

o 具有 比 4.3 BSD 更 简单 和 更 容易 修改 的 内 核 。 

Mach 开发 遵循 了 BSD UNIX 系统 的 演进 路 线 。Mach 代码 起 初 是 在 4.2BSD 内 核 上 开 
发 的 ; 随 着 Mach 组 件 的 完成 ，BSD 的 内 核 组 件 逐 渐 被 Mach 组 件 蔡 换 。 当 Mach 组 件 可 用 
时 ，BSD 组 件 被 更 新 到 4.3BSD。 到 1986 年 ， 虚 拟 内 存 和 通信 子 系统 已 运行 在 DEC VAX it 
算 机 系列 ， 包 括 多 处 理 器 版 本 的 VAX。 用 于 IBM RT/PC 和 SUN 3 工作 站 的 版 本 随后 也 有 
了 。 然 后 ，1987 年 ，Encore Multimax 和 Sequent Balance 多 处 理 器 的 版 本 也 完成 了 ， 包 括 任 
务 和 线程 支持 ; 以 及 系统 的 第 一 个 正式 版 本 ， 即 版 本 0 和 版 本 1。 

通过 版 本 2，Mach 兼容 相应 的 BSD 系统 ， 在 内 核 中 包括 BSD 的 大 量 代 码 。Mach 的 
新 特性 和 新 功能 使 得 这 些 版 本 的 内 核 比 相 应 BSD 内 核 更 大 。Mach 3 将 BSD 代码 移出 内 核 
之 外 ， 留 下 了 小 得 多 的 微 内 核 。 这 个 系统 在 内 核 中 只 实现 了 基本 Mach 功能 ; 所 有 UNIX 
特定 代码 被 移 到 用 户 模 式 的 服务 器 。 从 内 核 中 排除 UNIX 的 特定 代码 允许 采用 另 一 操作 系 
统 替 换 BSD， 或 者 在 微 内 核 之 上 同时 执行 多 个 操作 系统 接口 。 除 了 BSD， 还 开发 了 DOS、 
Macintosh 操作 系统 和 OSF/1 的 用 户 模 式 实现 。 这 种 方法 类 似 于 虚拟 机 概念 ， 但 是 这 里 虚拟 
机 的 定义 是 通过 软件 (Mach 内 核 接 口 )， 而 不 是 硬件 。 通 过 3.0 版 本 ，Mach 可 以 用 于 各 种 各 
样 的 系统 ， 包 括 单 处 理 器 的 SUN、Intel、IBM 和 DEC 机 器 ， 和 多 处 理 器 的 DEC、Sequent 
和 Encore 系统 。 

1989 年 ，OSF ( Open Software Foundation， 开 放 软 件 基金 会 ) 宣布 ， 它 会 采用 Mach 
2.5 作为 新 的 操作 系统 OSF/1 的 基础 ，Mach 引起 了 业界 关注 。( Mach 2.5 也 是 NeXT 工作 站 
的 操作 系统 的 基础 ， 这 种 工作 站 源 自 Apple Computer 名 人 Steve Jobs 的 创意 ) OSF/1 的 第 
1 版 一 年 后 发 布 了 ， 这 个 系统 与 UNIX SVR4 (UNIX System V Release 4 ) 一 起 竞争 ，UNIX 
SVR4 是 UNIX International (UI) 成 员 的 当时 流行 的 操作 系统 。OSF 成 员 包 括 IBM, DEC 
和 HP 等 关键 技术 公司 。OSF 后 来 改变 了 它 的 方向 ， 而 只 有 DEC UNIX 是 基于 Mach 内 核 的 。 

不 像 UNIX ( 它 的 开发 没有 考虑 多 处 理 )，Mach 始终 包含 多 处 理 支持 。 这 种 支持 也 非常 
灵活 ， 包 括 从 共享 内 存 的 系统 ， 到 处 理 器 之 间 没 有 共享 内 存 的 系统 。Mach 采用 轻 量 级 进程 
(在 一 个 任务 〈 或 地 址 空间 ) 中 按 多 线程 方式 执行 )， 以 支持 多 处 理 和 并 行 计算 。 它 广泛 使 用 
消息 作为 唯一 通信 方式 ， 以 便 确保 保护 机 制 是 完整 的 和 有 效 的 。 通 过 集成 消息 到 虚拟 内 存 ， 
Mach 也 确保 能 够 有 效 处 理 消息 。 最 后 ， 通 过 虚拟 内 存 系统 使 用 消息 与 管理 后 备 存 储 的 后 台 
程序 进行 通信 ，Mach 在 设计 和 实现 这 些 内 存 对 象 管理 的 任务 上 提供 了 很 大 的 灵活 性 。 通 过 
提供 低层 的 或 者 原始 的 系统 调用 (可 以 用 于 构建 更 复杂 的 功能 )，Mach 减 小 了 内 核 大 小 ， 同 
时 人 允许 用 户 级 别 的 操作 系统 仿真 ， 就 像 IBM 虚拟 机 系统 一 样 。 

一 些 以 前 版 本 的 《操作 系统 概念 》 包 括 整 章 的 Mach。 这 章 (本 书 的 第 4 版 ) 可 从 网 站 
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(www.wiley.com/college/silberschatz) 上 获得 。 


18.14 ”其 他 系统 


当然 ， 还 有 其 他 操作 系统 ， 而 且 大 多 数 具 有 有 趣 属性 。Burroughs 计算 机 系列 的 MCP 
操作 系统 是 第 一 个 采用 系统 程序 设计 语言 编写 的 系统 。 它 支持 分 段 和 多 CPU. CDC 6600 的 
SCOPE 操作 系统 也 是 一 个 多 CPU 系统 。 多 个 进程 的 协调 与 同步 出 人 意料 地 设计 得 很 好 。 

历史 上 还 有 一 些 操 作 系 统 ， 它 们 适合 特定 目的 (无 论 是 长 期 还 是 短期 ); 后 来 它们 被 具 
有 更 多 特征 的 、 支 持 更 新 的 硬件 、 使 用 更 容易 的 、 销 售 更 好 的 操作 系统 所 取代 。 我 们 确信 ， 
这 种 趋势 将 会 持续 下 去 。 


习题 

18.1 在 人 工 操 作 的 早期 计算 机 系统 上 ， 计算机 操作 员 在 决定 程序 运行 顺序 时 应 该 考虑 什么 ? 请 讨论 。 

18.2 ”对 于 早期 计算 机 ， 哪 些 优化 用 于 最 小 化 CPU 与 1/0 之 间 的 速度 差异 ? 

18.3 考虑 Atlas 使 用 的 页 面 替换 算法 。 它 与 9.4.5.2 节 所 述 的 时 钟 算法 有 何不 同 ? 

18.4 考虑 CTSS 和 MULTICS 使 用 的 多 级 反馈 队列 。 假 设 程序 在 完成 IO 操作 和 阻塞 前 ， 每 次 调度 都 
会 使 用 7 个 时 间 单 元 。 当 程序 在 不 同时 间 点 上 调度 执行 时 ， 它 应 分 配 多 少时 间 单 元 ? 

18.5 在 Mach 操作 系统 中 ， 用 户 模式 服务 器 支持 BSD 功能 的 含义 是 什么 ? 

18.6 ”从 操作 系统 的 发 展 中 可 以 得 出 什么 结论 ? 什么 导致 一 些 操作 系统 获得 流行 ? 什么 导致 退出 ? 


推荐 读物 

Frah (2001 ) 描述 了 织 布 机 和 计算 器 ， 而 Frauenfelder ( 2005 ) 图 示 了 这 些 。 

Rojas 和 Hashagen ( 2000 ) 讨论 了 Manchester Mark 1， 而 Ceruzzi ( 1998 ) 讨论 了 它 的 
后 代 Ferranti Mark 1。 

Kilburn 等 (1961 ) 和 Howarth 4 (1961) 分 析 了 Atlas 操作 系统 。 

Lichtenberger 和 Pirtle ( 1965 ) 描述 了 XDS-940 操作 系统 。 

Dijkstra ( 1968 ) 以 及 McKeag 和 Wilson ( 1976 ) 描述 了 THE 操作 系统 。 

Liskov ( 1972 ) 描述 了 Venus 系统 。 

Brinch-Hansen ( 1970 ) 和 Brinch-Hansen ( 1973) 讨论 了 RC 4000 系统 。 

Corbato 等 ( 1962 ) 介绍 了 CTSS (Compatible Time-Sharing System， 兼 容 分 时 系统 )。 

Corbato 和 Vyssotsky (1965) 以 及 Organick ( 1972 ) 描述 了 MULTICS 操作 系统 。 

Mealy 等 (1966 ) 介绍 了 IBM/360。Lett 和 Konigsford ( 1968 ) 讨论 了 TSS/360。 

Meyer 和 Seawright (1970) 以 及 Parmelee 等 (1972 ) 描述 了 CP/67。 

Kenah 等 (1988 ) 讨论 了 DEC VMS, mi Bobrow 等 ( 1972 ) 描述 了 TENEX。 

Apple (1987) 描述 了 Apple Macintosh。 有 关 这 些 操作 系统 及 其 历史 的 更 多 信息 ， 可 参见 
Freiberger 和 Swaine ( 2000 ). 

Rashid 和 Robertson ( 1981 ) 描述 了 Mach 操作 系统 及 其 原型 (Accent 操作 系统 )。Rashid ( 1986 )、 
Tevanian 等 (1989 ) 和 Accetta (1986) 讨论 了 Mach 的 通信 系统 。Tevanian 等 ( 1987a) 和 Black 
(1990) 详细 描述 了 Mach 调度 器 。Tevanian 等 (1987b) 介绍 了 Mach 共享 内 存 和 内 存 映 射 系统 的 早 
期 版 本 。 描 述 Mach 项 目的 很 好 的 资源 ， 可 参见 http://www.cs.cmu.edu/afs/cs/project/mach/public/www/ 


mach.html。 
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McKeag 和 Wilson ( 1976 ) 讨论 了 Burroughs 计算 机 系列 的 MCP 操作 系统 ， 以 及 CDC 6600 的 
6600 操作 系统 。 
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as memory buffer (作为 内 存 缓冲 )，346 
nonvolatile RAM ( 非 易 失 性 RAM), 558 
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630 
Hydra，627-629 
capability lists (能 力 列表 )，623 
cascade termination (级 联 终止 )，119 
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virtualization (虚拟 化 )，40-41 
computer programs (计算 机 程序 )， 见 application 
programs 
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computer system (计算 机 系统 ) 
architecture of (架构 ) 
clustered systems (集群 系统 )，17-18 
multiprocessor systems (多 处 理 器 系统 )，14-16 
single-processor systems( 单 处 理 器 系统 )，13-14 
distributed systems (分 布 式 系统 )，37-38 
file-system management in (文件 系统 管理 )，26-27 
IO Structure in (1/0 结构 )，12 
memory management in (内 存 管理 )，25-26 
operating system viewed by (操作 系统 的 不 同 
视角 )，5 
operation of (运行 )，7-9 
process management in (进程 管理 )，24-25 
protection in (保护 )，29-31 
real-time embedded systems (EITA RRA), 43 
secure (ZE), 644 
security in (#4>), 29-31 
storage in (存储 )，9-12 
storage management in (存储 管理 )，26-30 
caching (高 速 缓存 )，27-29 
I/O Systems (IO 系统 )，29-30 
mass-storage management (大 容量 存储 器 管 
理 )，27 
threats to (威胁 )，653-658 
computing (计算 ) 
mobile (移动 )，36-37 
safe (安全 )，678 
Concurrency Runtime (ConcRT， 并 发 运行 时 库 )， 
237，791-792 
conditional-wait construct (条 件 等 待 结 构 )，280 
condition variables (条 件 变量 )，790 
confidentiality (机 密 性 )，breach of (违反 )，642 
confinement problem (禁闭 问题 )，621 
conflict phase ( of dispatch latency) (( 调 度 延 迟 的 ) 
冲突 阶段 )，225 
conflict resolution module (in Linux) (冲突 解决 
HR), 705-706 
connectionless (UDP) sockets (无 连接 套 接 字 )， 
135 
connection-oriented (TCP) sockets (面向 连接 套 
接 字 ),135 
consistency checker (一 致 性 检查 程序 )，520 


consistency checking (一 致 性 检查 )，520-521 
consistency semantics (一 致 性 语义 )，484 
constant angular velocity (CAV， 人 恒定 角速度 )， 
543 
constant linear velocity (CLV， 人 恒定 线 速度 )，542 
consumers (DTrace) (探头 使 用 者 )，87 
container objects (Windows 7) (容器 类 对 象 )， 
685 
contention scope (竞争 范围 )，217 
context (of process) ( (进程 ) 上 下 文 )，112 
context switches (上 下 文 切换 )，112，603-604 
contiguous disk space allocation (连续 硬盘 空间 
分 配 )，505-507 
contiguous memory allocation (连续 内 存 分 配 )，354 
control cards (控制 卡 )，803 
control card interpreter (控制 卡 解释 器 )，804 
controlled access( 受 控 访 问 )，486 
controller (控制 器 )，541，576-577 
defined (定义 )，576 
direct memory access (直接 内 存 访问 )，583 
disk (硬盘 )，541 
host (主机 )，541 
control programs (控制 程序 )，5 
control register (控制 寄存 器 )，578 
convenience (便捷 )，3 
convoy effect (护航 效果 )，207 
cooperating processes (协作 进程 )，120 
cooperative scheduling (协作 调度 )，204 
copylefting (H), 45 
copy-on-write technique ( 写 时 复制 技术 )，400-401 
copy protection (复制 保护 )，44 
copy semantics (复制 语义 )，594 
core dump (核心 转 储 )，84 
core memory (核心 内 存 )，807 
cores (计算 核 )，15-16 
counting (计数 )，515 
counting-based page replacement algorithm (基于 
计数 的 页 面 置换 算法 )，412 
counting semaphore (计数 信号 量 )，264 
coupling (#84), symmetric (对 称 )，17 
covert channels (隐蔽 通道 )，646 
CP/M (控制 程序 / 监控 器 )，813 


CPU (central processing unit， 中 央 处 理 单元 ), 4， 
345-349 
CPU-bound processes (CPU 密集 型 进程 )，111 


CPU burst (CPU 执行 )，202 
CPU clock (CPU 时 钟 )，346 


CPU-I/O burst cycle ( CPU-I/O 执行 周期 )，202- 
203 


CPU scheduler ( CPU 调度 程序 )， 见 short-term 


scheduler 
CPU scheduling (CPU 调度 )，20 
about (AX), 201-202 
algorithms for (#3), 206-217 
criteria (准则 )，205-206 
evaluation of (评估 )，240-244 
first-come first-served scheduling of ( 先 到 先 
服务 调度 )，206-207 
implementation of (实现 )，243-244 
multilevel feedback queue scheduling of ( 多 
级 反馈 队列 调度 )，215-217 
multilevel queue scheduling of (多 级 队列 调 
度 )，213-215 
priority-scheduling of (优先 级 调度 )，210-211 
round-robin scheduling of (轮转 调度 )，211- 
213 
shortest-job-first scheduling of (最 短 作业 优先 
调度 )，207-210 
dispatcher，role of (调度 程序 ， 作 用 )，205 
and I/O-CPU burst cycle (与 /O-CPU 执行 周期 )， 
202-203 
models for (模型 )，240-244 
deterministic modeling (确定 性 模型 )，240-241 
and implementation (实现 )，243-244 
queueing-network analysis (排队 网 络 分 析 )， 
242 
simulations (仿真 )，242 
multiprocessor scheduling (多 处 理 器 调度 )， 
218-223 
approaches to (方案 )，218-220 
and load balancing (与 负载 平衡 )，220-221 
and processor affinity (与 处 理 器 亲 和 性 )，220 
preemptive scheduling (抢占 调度 )，203-204 
real-time (实时 )，223-230 
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earliest-deadline-first scheduling (最 早 截止 时 
间 优 先 调度 )，228-229 
and minimizing latency (与 最 小 化 延迟 )，223- 
225 
POSIX real-time scheduling ( POSIX 实时 调 
RE), 230 
priority-based scheduling (优先 权 调度 )，225- 
227 
proportional share scheduling ( 比例 分 享 调度 )， 
229-230 
rate-monotonic scheduling (单调 速率 调度 )， 
227-228 
short-term scheduler, role of (短期 调度 程序 ， 
作用 )，203 
crackers〈 骇 客 )，642 
crashes( 朋 演 )，84 
crash dumps (崩溃 转 储 )，84 
creation (创建 ) 
of files (文件 )，456 
process (进程 )，114-118 
critical sections (临界 区 )，256 
critical section problem (临界 区 问题 )，256 
and mutex locks (47H J¥#i), 262-263 
Peterson’s solution to ( Peterson 的 解答 )，257- 
259 
and semaphores (4914S fit), 263-268 
deadlocks (St #i), 267 
implementation (SCH), 265-267 
priority inversion (优先 级 反 转 )，267-268 
starvation (饥饿 )，267 
usage (使 用 )，264-265 
and synchronization hardware (与 硬件 同步 )， 
259-262 
cryptography (密码 术 )，658-659 
and encryption (与 加 密 )，659-665 
implementation of (实现 )，665-667 
SSL example of (SSL 例子 )，667-669 
CSC (client-side caching， 客 户 端 缓存 )，785 
C-SCAN scheduling algorithm (循环 扫描 调度 算 
法 )，548 
CTSS operating system (CTSS 操作 系统 )，810-811 
current directory (当前 目录 )，473 
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current-file-position-pointer( 当 前 文件 位 置 指针 )， 
458, 460 

cycle stealing (周期 窃取 )，584 

cylinder groups( 柱 面 组 )，726 


D 


d (page offset) (d 页 偏 移 )，362-363 
daemon process (守护 进程 )，616 
daisy chain (菊花 链 )，576 
Dalvik virtual machine (Dalvik 虚拟 机 )，84 
data (数据 ) 
recovery of (恢复 )，520-523 
thread-specific (特定 线程 )，185 
data capability (数据 能 力 )，629 
data encryption standard (DES， 数 据 加 密 标准 )， 
660-661 
data files (数据 文件 )，456 
datagrams (数据 报 )，734 
data-in register (数据 输入 寄存 器 )，578 
data-link layer (数据 链 路 层 )，665 
data loss, mean time to( 数 据 丢失 ， 平 均 时 间 )， 
557 
data-out register (数据 输出 寄存 器 )，578 
data parallelism (数据 并 行 )，166-167 
data section (of process) (数据 段 (进程 ))，104 
data striping (数据 分 条 )，558 
DCOM (分 布 式 COM)，784 
DDOS attacks (DDOS 攻击 )，658 
deadline I/O scheduler (截止 期 IO 调度 器 )，731 
deadlock( 死 锁 )，267 
avoidance of (避免 )，318，323-329 
with banker’s algorithm (银行 家 算法 )，326- 
327 
with resource-allocation-graph algorithm ( 资 
源 分 配 图 算法 )，325-326 
with safe state algorithm (安全 状态 算法 )，324- 
325 
defined (ŒX), 311 
detection of (检测 )，329-333 
algorithm usage (应 用 算法 )，332-333 
several instances of a resource type (每 种 资 


源 类 型 可 有 多 个 实例 )，330-332 


single instance of each resource type (每 种 资 
源 类 型 只 有 单个 实例 )，330 
methods for handling (处 理 方法 )，318-319 
with mutex locks ( 互 斥 锁 )，313-314 
necessary conditions for (必要 条 件 )，314-315 
prevention of (预防 )，319-323 
and circular-wait condition (与 循环 等 待 条 
件 )，321-323 
and hold-and-wait condition (与 持 有 且 等 待 
条 件 )，319-320 
and mutual exclusion condition (与 互 斥 条 
件 )，319 
and no-preemption condition (与 无 抢占 条 
件 )，320 
recovery from (恢复)，333-334 
by process termination〈 进 程 终 止 )，333-334 
by resource preemption (资源 抢占 )，334 
system model for (系统 模型 )，311-313 
system resource-allocation graph for describing 
(描述 …… 系 统 资源 分 配 图 )，315-317 
Debian (发 行 Linux 的 Debian)，699 
debuggers (调试 器 )，64，84 
debugging (调试 ) 
defined (定义 )，84 
failure analysis (故障 分 析 )，84-85 
and performance tuning (与 性 能 优化 )，85 
using DTrace for (采用 DTrace), 85-89 
dedicated devices (专用 设备 )，586，587 
default signal handlers ( 缺 省 信号 处 理 程序 )，182 
defense in depth (深度 防御 )，673 
deferred procedure calls ( DPC， 延 迟 过 程 调用 )， 
752, 753-754 
deferred thread cancellation (延迟 线程 撤销 )，183 
degree of multiprogramming (多 道 程序 程度 )，111 
deletion, file (删除 ， 文 件 )，458 
demand paging (请 求 调 页 )，393-399 
basic mechanism (基本 机 制 )，394-397 
defined (定义 )，393 
with inverted page tables (倒置 页 表 )，434 
and I/O interlock (与 IO 联 锁 )，436-437 
and page size( 与 页 面 大 小 )，432-433 
and performance (与 性 能 )，397-399 


and prepaging (与 预 调 页 面 )，431-432 
and program structure( 与 程序 结构 )，434-435 
pure ( 纯 )，396 
and restarting instructions (与 重启 指令 )，396- 
397 
and TLB reach (与 TLB 范围 )，433-434 
demand-zero memory( 按 需 填 零 内 存 )，719 
demilitarized zone (DMZ， 非 军事 区 )，680-681 
denial-of-service (DOS) attacks (拒绝 服务 攻击 )， 
642, 658 
dentry objects (dentry 对 象 )，503 723 
DES (data encryption standard， 数 据 加 密 标 准 )， 
660-661 
design of operating systems (操作 系统 设计 ) 
goals (目标 )，73-74 
Linux, 700-703 
mechanisms and policies (机 制 与 策略 )，74 
Windows 7, 743-750 
desktop (桌面 )，57 
desktop window manager (DWM， 桌 面 窗口 管理 
fit), 743 
deterministic modeling (确定 性 模型 )，240-241 
development kernels ( Linux) ( Linux 开发 内 核 )， 
697 
device controllers (i 444% hla), 7, 599-601, 
JL I/O 
device directory (#4 AR), 468, JL directories 
device drivers (设备 驱动 程序 )，12, 496，576， 
599-601, 804 
device-management system calls (设备 管理 系统 
调用 )，69-70 
device objects (设备 对 象 )，767 
device queues (设备 队列 )，109-110 
device reservation (设备 预 留 )，595 
DFS (分 布 式 文件 系统 )， 见 distributed file 
systems 
digital certificates (数字 证 书 )，665 
Digital Equipment Corporation ( DEC， 数字 设备 
公司 373 
Digital Rights Management (DRM， 数 字 版 权 管 
理 )，44 
digital signatures (数字 签名 )，664，744 
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digital signature algorithm (数字 签名 算法 )，664 
dining-philosophers problem (哲学 家 就 餐 问 题 )， 
272-273, 277-279 
direct access (files) (文件 的 直接 访问 )，465-466 
direct blocks (直接 块 )，511 
direct communication (直接 通信 )，125 
DirectCompute ( Microsoft 用 于 GPU 通用 计算 的 
应 用 程序 接口 )，747 
direct I/O (直接 1O)，588 
direct memory access (DMA， 直 接 内 存 访 问 )， 
12, 583-585 
direct-memory access (DMA) controller (直接 内 
存 访问 控制 器 )，583 
directories (目录 )，467-478 
acyclic-graph (无 环 图 )，476-478 
general graph (通用 图 )，477-478 
implementation of (实现 )，504-505 
recovery of (恢复 )，520-523 
single-level ( 单 级 )，470-471 
tree-structured( 树 形 )，473-474 
two-level (二 级 )，471-473 
direct virtual-memory access ( DVMA， 直 接 虚 拟 
内 存 访问 )，584 
dirty bits (modify bits)( 脏 位 (修改 位 ))，403 
discovery protocols (发现 协 议 )，39 
disk (硬盘 )，539-541， 见 mass-storage structure 
allocation of space on (空间 分 配 )，505-513 
contiguous allocation (连续 分 配 )，505-507 
indexed allocation〈 索 引 分 配 )，509-511 
linked allocation (链接 分 配 )，507-509 
and performance (性能)，512-513 
bad blocks( 坏 块 )，552-554 
boot (引导 )，91，552 
boot block (引导 块 )，552 
efficiency use of (高 效 使 用 )，516-517 
electronic (Hi), 11 
formatting (格式 化 )，551-552 
free-space management for (空闲 空间 管理 )， 
513-516 
host-attached (主机 连接 )，543 
low-level formatted (低级 格式 化 )，542 
magnetic( 磁 的 )，10 
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network-attached (网 络 连接 )，543-544 
performance improvement for (性 能 改进 )， 
517-520 
raw (Jt), 413, 501 
scheduling algorithms (调度 算法 )，544-550 
C-SCAN (循环 扫描 )，548 
FCFS ( 先 到 先 服务 )，545-546 
LOOK (看 )，549 
SCAN (H$), 547-548 
selection (选择 )，549-550 
SSTF (最 短 寻 道 时 间 优 先 )，546-547 
solid-state (固态 )，11，28，541 
storage-area networks (存储 域 网 )，544 
structure of (结构 )，542 
system (系统 )，552 
disk arm (REF), 540 
disk controller (硬盘 控制 器 )，541 
disk stripping (磁盘 分 条 )，779 
dispatched process (分派 进程 )，110 
dispatcher (调度 程序 )，205，234 
dispatcher objects (调度 对 象 )，283 ，753 ，756 
dispatch latency (调度 延迟 )，205 
distributed denial-of-service (DDOS) attacks (分 
布 式 拒绝 服务 攻击 )，658 
distributed file systems (DFS ， 分 布 式 文 件 系统 )， 
481 
stateless (无 状态 )，484 
Windows 7, 785 
distributed information systems ( distributed 
naming services) (分 布 式 信息 系统 (分 布 
式 命名 服务 ))，482 
distributed lock manager (DLM， 分 布 锁 管 理 器 )，18 
distributed systems (分 布 系统 )，37-38 
distributions (GNU/Linux) (GNU/Linux 操作 系统 
的 发 布 )，45 
DLL (动态 链接 库 )， 见 dynamic linked libraries 
DLM (distributed lock manager， 分 布 锁 管 理 器 )，18 
DMA (直接 内 存 访问 )， 见 direct memory access 
DMA controller (直接 内 存 访问 控制 器 )，583 
DMCA (U.S. Digital Millennium Copyright Act, 
美国 千 禧 年 数字 版 权 法案 )，44 
DMZ (demilitarized zone， 非 军事 区 )，680-681 


domains ( 域 )，785 

domain name system (DNS， 域 名 系统 )，482 

domain switching ( 域 切 换 )，615 

DOS attacks (拒绝 服务 攻击 )， 见 denial-of-service 
attacks 

double buffering ( 双 缓 冲 )，353 593 

double caching( 双 缓存 )，518 

double indirect blocks (二 级 间接 块 )，511 

doubly linked lists (双向 链表 )，32 

down time (停机 期 间 )，507 

DPC (deferred procedure calls， 延 迟 过 程 调 用 )， 
752, 753-754 

DRAM (dynamic random access memory, Z) Æ% 
随机 访问 内 存 )，9 

driver end (STREAM) ( STREAM 驱动 程序 端 )， 
601-602 

driver objects (驱动 对 象 )，767 

driver registration module (Linux) (驱动 程 序 注册 
模块 )，704-705 

DRM ( Digital Rights Management， 数 字 版 权 管 
理 )，44 

DTrace Sun (Sun 公司 的 内 核 调度 工具 )，85-89 

dual-booted systems (双重 引导 系统 )，501 

dual-core design (双核 设计 )，16 

dumpster diving (垃圾 桶 潜水 )，644 

DVMA (direct virtual-memory access， 直 接 虚拟 
内 存 访 问 )，584 

DWM (desktop window manager， 桌 面 窗 口 管理 
器 )，743 

dynamic configurations (动态 配置 )，749，750 

dynamic linking (动态 链接 )，722-723 

dynamic linked libraries (DLL， 动 态 链接 库 )， 
351-352, 748 

dynamic loading (动态 加 载 )，351 

dynamic protection (动态 保护 )，621 

dynamic random access memory (DRAM， 动 态 
随机 访问 内 存 )，9 

dynamic storage-allocation problem (动态 存储 分 
配 问题 )，356，506 


E 
earliest-deadline-first ( EDF) scheduling (最 早 截 


止 期 限 调度 )，228-229 
ease of use (使 用 方便 )，5 
ease of use features ( 易 用 性 特征 )，742 
EC2【〈 亚 马 逊 弹性 计算 云 )，41 
ECB (enabling control blocks) (启用 控制 块 )，88 
ECC ( 纠 错 代码 )， 见 error-correcting code 
EDF ( earliest-deadline-first) scheduling (最 早 截 
止 期 限 调度 )，228-229 
effective access time (有 效 访 问 时 间 )，397 
effective memory-access time (有 效 内 存 访问 时 
间 )，368 
effective UID (有 效 UID), 31 
efficiency (24), 3, 516-517, 749 
electronic disk (电子 硬盘 )，11 
elevator algorithm (电梯 算法 )， 见 SCAN scheduling 
algorithm 
emulation (模拟 )，40 
emulators (模拟 器 )，75 
enabling control blocks (ECB， 启 用 控制 块 )，88 
encapsulation (Java)( 封 装 )，635 
encrypted viruses (加 密 病 毒 )，652 
encryption (加 密 )，659-660 
asymmetric( 非 对 称 )，662 
authentication (认证)，662-665 
key distribution( 密 钥 分 发 )，665 
public-key ( 公 钥 )，662 
symmetric (对 称 )，660-661 
encryption, defined (加 密 ， 定 义 )，659-660 
energy efficiency (电源 效率 )，749 
entry section (进入 区 )，256 
entry set (进入 集合 )，282 
environmental subsystems (环境 子 系统 )，748 
environment vector (环境 向 量 )，707 
EPROM (erasable programmable read-only 
memory， 可 擦 可 编程 只 读 存储 器 )，91 
equal allocation (平均 分 配 )，415 
erasable programmable read-only memory (EPROM, 
可 擦 可 编程 只 读 存储 器 )，91 
Erlang language (Erlang 函数 式 语言 )，291-292 
error (错误 )，595-596 
hard (硬件 )，554 
soft (软件 )，551 
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error conditions (错误 条 件 )，390 

error-correcting code (ECC， 纠 错 代 码 )，551， 
560 

error detection (错误 检测 )，55 

escalate privileges (升级 特权 )，31 

escape ( operating system) (逃逸 (操作 系统 ))， 
587 

events (事件 )，283 

event latency (事件 延迟 )，223-224 

event objects (Windows 7 ) (事件 对 象 )，753 

event-pair objects (事件 对 对 象 )，766-767 

exception dispatcher (异常 调度 器 )，754 

exceptions (with interrupt) (异常 (中断))，581 

exclusive locks (独占 锁 )，460 

exec() system call (系统 调用 exec())，181 

executable files (可 执行 文件 )，104，456 

execution of user programs (用户 程序 的 执行 )，721 

execution time (执行 时 )，349 

exit section (退出 区 )，256 

exit() system call (exit() 系统 调用 )，118，119 

expansion bus (扩展 总 线 )，576 

exponential average (指数 平均 )，208 

export list (输出 列表 )，526 

ext2 (second extended file system， 第 二 扩展 文件 
系统 )，725 

ext3 (third extended file systetm， 第 三 扩展 文件 
系统 )，725-727 

ext4 ( fourth extended file system， 第 四 扩展 文件 
系统 )，725 

extended file attribute (扩展 文件 属性 )，457 

extended file system ( extfs， 可 扩展 文件 系统 )， 
497, 525 

extensibility (MJ ELE), 748 

extent (contiguous space) (扩展 (连续 空间 ))，507 

extents (扩展 )，776 

external data representation ( XDR， 外 部 数据 表 
示 )，138 

external fragmentation( 外 部 碎片 )，357-358，506 


F 


failure (故障 ) 
mean time to (平均 时 间 )，557 
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during writing of block (在 写 和 人 块 时 )，566-568 
failure analysis (故障 分 析 )，84-85 
failure modes (directories) (故障 模式 (目录 ))， 
483-484 
false negatives ( 假 阴 性 )，677 
false positives( 假 阳性 )，677 
fast user switching (快速 用 户 切 换 )，774-775 
FAT (file-allocation table， 文 件 分 配 表 )，509 
fault tolerant (容错 )，14，779-780 
FC (fiber channel， 光 纤 通 道 )，541 
FC-AL (arbitrated l1oop ， 仲 裁 环 路 )，541 
FCB (file-control block， 文 件 控制 块 )，497 
FC buses (光纤 通道 总 线 )，541 
FCFS scheduling algorithm ( 先 到 先 服务 调度 算 
法 )， 见 first-come first-served scheduling 
algorithm 
feature migration (特征 迁移 )，799-800 
fiber (FFE), 790-791 
fiber channel (FC， 光 纤 通 道 )，541 
fiber channel (FC) buses (光纤 通道 总 线 )，541 
FIFO (先进 先 出 )，32，145 
FIFO page replacement algorithm (FIFO 页 面 置 
换算 法 )，405-406 
50-percent rule (50% 规则 )，357 
file (SC(), 26-27, 455-456, JU directories 
accessing information on (访问 信息 )，465-467 
direct access (直接 访问 )，465-466 
sequential access (顺序 访问 )，465 
attributes of (属性 )，456-458 
batch ( 批 处 理 )，463 
defined (定义 )，456 
executable (可 执行 )，104 
internal structure of (内 部 结构 )，464-465 
locking open (加 锁 打 开 )，459-462 
operations on (##/F), 458-462 
protecting (PRI), 485-490 
via file access (文件 访问 )，485-490 
via passwords/permissions (密码 /许可 )， 
489-490 
recovery of (恢复 )，520-523 
storage structure for (存储 结构 )，469-470 
file access (文件 访问 )，460，485-490 


file-allocation table (FAT， 文 件 分 配 表 )，509 
file-control block (FCB, 文件 控制 块 )，497 
file descriptor (文件 描述 符 )，500 
file extensions (文件 扩展 )，462-463 
file handle (文件 句柄 )，500 
file info window (Mac OS x) (文件 信息 窗口 )， 
457 
FileLock (Java) (文件 加 锁 )，460-461 
file management (文件 管理 )，72 
file management system calls (文件 管理 系统 调用 )， 
69 
file mapping (文件 映射 )，425 
file modification (文件 修改 )，72 
file object (文件 对 象 )，503，723 
file-organization module (文件 组 织 模块 )，497 
file pointers (文件 指针 )，460 
file reference (文件 引用 )，776 
file replication (文件 复制 )，781 
file session (文件 会 话 )，484 
file sharing (文件 共享 )，480-485 
and consistency semantics (与 一 致 性 语义 )， 
484-485 
with multiple users (多 用 户 )，480-481 
with networks (通过 网 络 )，482-484 
and client-server model (与 客户 机 -服务 器 
模型 )，481-482 
and distributed information systems (与 分 布 式 
信息 系统 )，482-483 
and failure modes (与 故障 模式 )，483-484 
file systems (文件 系统 )，455，496-497 
basic (基本 )，496 
creation of (创建 )，470 
design problems with (设计 问题 )，496 
distributed (分 布 式 )， 见 distributed file systems 
extended (扩展 )，496 
implementation of (实现 )，498-504 
mounting (安装 )，501-502 
partitions (分 区 )，501-502 
virtual systems (虚拟 系统 )，502-504 
levels of (层次 )，496 
Linux, 723-729 
log-based transaction-oriented (基于 日 志 的 面向 





事务 )，521-522 
logical (逻辑 )，496 
mounting of (安装 )，478-480 
network (网 络 )，523-529 
remote (远程 )，529 
WAFL (随处 可 写 文件 分 布 )，529-532 
Windows 7 
File System Hierarchy Standard document ( 文 件 
系统 层次 结构 标准 文档 )，698 
file-system management (文件 系统 管理 )，26-27 
file-system manipulation (operating system service) 
(文件 系统 操作 (操作 系统 服务 ))，54 
file transfer (文件 传输 )，516 
file transfer protocol (FTP， 文 件 传输 协议 )，481 
file viruses (文件 病毒 )，651 
filter driver (过 滤 驱 动 程序 )，767-768 
fine-grained multithreading ( 细 粒 度 的 多 线程 )， 
222 
firewalls (Bi ks), 35, 680-682 
firewall chains (防火 墙 链 )，735 
firewall management (防火 墙 管理 )，735 
firmware (固件 )，7，91 
first-come first-served (FCFS) scheduling algorithm 
( 先 到 先 服务 调度 算法 )，206-207，545-546 
first-fit strategy (首次 适应 策略 )，356，357 
fixed-partitions scheme (固定 分 区 方案 )，356 
flow control ( 流 控制 )，601 
flushing (刷新 )，368 
folders (文件 夹 )，57 
foreground processes (HAH), 113, 214, 236 
fork()and exec() process model ( Linux ) (fork()/ 
exec() 进程 模型 )，706-708 
fork-join strategy (分 又 — 连接 策略 )，170 
fork() system call (系统 调用 fork()), 181 
formatting (格式 化 )，551-552 
forwarding ( 转 寄 )，554 
forward-mapped page tables (向 前 映射 页 表 )，373 
fourth extended file system ( ext4， 第 四 扩展 文件 
系统 )，725 
fragment, packets (分 组 的 片段 )，735 
fragmentation (碎片 )，357-358 
external (外 部 )，357-358，506 
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internal (AXR), 357, 465 
frame (fi), 361 
stack (HERE), 648-649 
victim (牺牲 )，403 
frame allocation ( 帧 分 配 )，413-417 
equal allocation (平均 分 配 )，415 
global vs. local (全 局 与 局 部 )，416 
proportional allocation (比例 分 配 )，415-416 
frame-allocation algorithm ( 帧 分 配 算法 )，404 
frame pointers 〈 栈 帧 指针 )，648-649 
free-behind technique (随后 释放 技术 )，519 
free objects (空闲 对 象 )，430，717 
Free Software Foundation (FSF， 自 由 软件 基金 
会 )，45 
free-space list (空闲 空间 链表 )，513 
free-space management(disks)( 空 闲 空 间 管 理 ( 硬 
盘 ))，513-516 
bit vector (位 向 量 )，513-514 
counting (计数 )，515 
grouping (组 )，515 
linked list (链表 )，514-515 
and space maps (空间 表 )，515-516 
front-end processors (前 端 处 理 器 )，604 
FSF (Free Software Foundation， 自 由 软件 基金 
会 )，45 
FTP (文件 传输 协议 )， 见 file transfer protocol 
full backup〔 完 全 备份 )，522 
FUSE file system (FUSE 文件 系统 )，497 


G 


Gantt chart (Gantt 图 ， 甘 特 图 )，207 

garbage collection (垃圾 收集 )，478 

gates ( 门 )，617 

GB (gigabyte， 十 亿 字 节 )，9 

gcc (GNU C compiler, GNU C 编译 器 )，698 

GCD (Grand Central Dispatch， 大 中 央 调 度 )，180- 
181 

GDT ( global descriptor table， 全 局 描述 符 表 )， 
378 

general graph directories (通用 图 目录 )，477-478 

general trees (一 般 树 )，33 

gesture (手势 )，58 
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gigabyte (GB ， 十 亿 字 节 )，9 

global descriptor table (GDT， 全 局 描述 符 表 )，378 

global positioning system (GPS ， 全 球 定位 系统 )， 
36 

global replacement (全 局 置换 )，416 

GNOME desktop (GNOME 桌面 )，58 

GNU C compiler (gec) (GNU C 编译 器 )，698 

GNU General Public License (GPL) ( GNU 通用 
公共 许可 证 )，45 

GNU/Linux, 58 

GPL (GNU General Public License, GNU ii 用 
公共 许可 证 )，45 

GPS (global positioning system， 全 球 定位 系统 )， 
36 

graceful degradation (适度 退化 )，14 

Grand Central Dispatch (GCD， 大 中 央 调 度 )， 
180-181 

granularity (粒度 )，minimum (最 小 )，711 

graphs, acyclic (图 ， 无 环 )，475 

graphical user interfaces ( GUI， 图 形 用 户 界面 )， 
57-60 

graphics shaders (图 形 着 色 器 )，747 

grappling hook (41144), 654 

Green threads (Solaris 的 绿色 线程 )，167 

group identifiers (组 标识 )，31 

grouping (组 )，515 

group policies (组 策略 )，786 

group rights (Linux) (组 权限 )，737 

guard pages (保护 页 面 )，759 

GUI ( graphical user interfaces, AUB FA Ail), 
57-60 


H 


HAL (硬件 抽象 层 )， 见 hardware-abstraction layer 
handheld computers (手持 式 计算 机 )，5 

handles (句柄 )，756 

handle tables (句柄 表 )，756 

handshaking (握手 )，579，599 

handshaking procedure (握手 步骤 )，579 
hands-on computer systems (交互 计算 机 系统 )，20 
hard affinity〈 硬 亲 和 人 性 )，220 

hard-coding techniques ( 硬 编码 技术 )，126 


hard errors (硬件 错误 )，554 
hard links ( 硬 链接 )，477 
hardware (硬件 )，4 
I/O systems (1/0 系统 )，576-585 
direct memory access (直接 内 存 访问 )，583- 
585 
interrupts (PW), 580-583 
polling ( 轮 询 )，579 
for storing page tables (存储 页 表 )，366-369 
synchronization (同步 )，259-262 
hardware-abstraction layer ( HAL， 硬 件 抽象 层 )， 
748 
hardware objects (硬件 对 象 )，613 
hash collisions ( 哈 希 碰撞 )，34 
hashed page tables ( 哈 硕 页 表 )，374-375 
hash functions (了 哈 希 函数 )，33-34，664 
hash maps ( 哈 希 表 )，34 
hash tables ( 哈 希 表 )，504-505 
hash value ( message digest) ( 哈 希 值 ( 报 文摘 要 ) ), 
664 
heaps (HE), 104, 794 
heavyweight processes (重量 级 进程 )，161 
hibernation (休眠 )，771-772 
hierarchical paging (分 层 页 表 )，372-374 
high availability (高 可 用 性 )，17 
high-performance (高 性 能 )，834 
high-performance computing (高 性 能 计算 )，17 
hijacking (劫持 )，session (会 话 )，643 
hit ratio (命中 率 )，368，433 
hive (配置 单元 )，772 
hold-and-wait condition (deadlocks) (占有 并 等 待 
条 件 ( 死 锁 ))，319-320 
holes (FL), 356 
homogeneity (FHIR), 218 
host adapter (主机 适配器 )，577 
host-attached storage ( 主机 连接 存储 )，543 
host controller (主机 控制 器 )，541 
hot spare disks ( 热 备 份 硬盘 )，563 
hot-standby mode ( 热 备 份 模式 )，17 
human security (用 户 安全 )，646 
hybrid cloud (混合 云 )，42 
hybrid operating systems (混合 操作 系统 )，81-84 
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Android, 83-84 

iOS, 82-83 

Mac OS X, 82 
Hydra (一 种 面向 能 力 的 保护 系统 )，627-629 
hyperspace( 超 空间 )，758 


IA-32 architecture (IA-32 架构 )，378-381 
paging in (分 页 )，379-381 
segmentation in (分 段 )，378-379 
IA-64 architecture (IA-64 架构 )，381 
IaaS (infrastructure as a service， 基 础 设施 即 服 
务 )，42 
IBM OS/360, 811-813 
identifiers (标识 ) 
file (CHF), 456 
group (44), 31 
user (AUF), 31 
idle threads (空闲 线程 )，234，752 
IDPS ( intrusion-prevention systems， 人 和 人 侵 防 御 系 
统 )，676 
IDS (intrusion-detection systems， 人 侵 检 测 系 
统 )，675-678 
IKE protocol (IKE 协议 )，666 
immutable shared files (不 可 变 共享 文件 )，485 
imperative languages (命令 式 语言 )，291 
impersonation (假冒 )，765 
implementation (实现 ) 
of CPU scheduling algorithms (CPU 调度 算法 )， 
243-244 
of operating systems (操作 系统 )，74-75 
implicit threading( 隐 式 线程 )，175-181 
Grand Central Dispatch (GCD， 大 中 央 调 度 )， 
180-181 
OpenMP and, 179-180 
thread pools and (线程 池 )，177-179 
incremental backup (递增 备份 )，523 
indefinite blocking (starvation) (无 限 阻 塞 ( 饥 
IR)), 211, 267 
independent disks (独立 硬盘 )，557 
independent processes (独立 进程 )，120 
index (5|), 466 


index block (索引 块 )，509 
indexed disk space allocation (索引 硬盘 空间 分 配 )， 
509-511 
index root (514R), 776 
indirect blocks (间接 块 )，511 
indirect communication (间接 通信 )，126 
information-maintenance system calls (信息 维护 
系统 调用 )，70 
Infrastructure as a service (JaaS， 基 础 设施 即 服 
务 )，42 
inode (信息 节点 )，497 
inode objects (inode X%{#), 503, 723 
input/output (输入 /输出 ), ' 见 IO 
input queue (输入 队列 )，348 
InServ storage array (InServ 存储 阵列 )，565 
instruction-execution cycle (指令 执行 周期 )，10， 
345-346 
instruction register (指令 寄存 器 )，10 
integrity (完整 性 )，breach of (违反 )，642 
Intel processors (Intel 处 理 器 )，377-381 
IA-32 architecture (IA-32 架构 )，378-381 
IA-64 architecture (IA-64 4844), 381 
interactive ( hands-on) computer system (交互 计 
算 机 系统 )，20 
interface (接口 ) 
batch ( 批 处 理 )，54 
choice of (选择 )，59-60 
defined (定义 )，585 
Windows 7 networking (Windows 7 联网 )，786- 
795 
interlock (84), 1/0 (1/0), 436-437 
internal fragmentation (内 部 碎片 )，357，465 
Internet Key Exchange (IKE) (互联 网 密 钥 交换 )， 
666 
Internet Protocol (IP, HAKM PMX), 665-667 
interpretation (解释 )，40 
interprocess communication ( IPC， 进 程 间 通信 )， 
120-128 
in client-server systems( 客 户 机 - 服务 器 系统 )， 
134-145 
remote procedure calls (远程 程序 调用 )，136- 
140 


580 Ž “Al 





sockets (EZF), 134-136 
in Linux, 697, 732-733 
Mach example of (Mach 例子 )，129-132 
in message-passing systems (消息 传递 系统 )， 
124-128 
POSIX shared memory example of ( POSIX 共 
BABI), 128-129 
in shared-memory systems (共享 内 存 系统 )，122- 
124 
Windows example of (Windows 例子 )，133 
interrupt (中 断 )，8-9，580-583 
defined (定义 )，580 
in Linux (Linux 的 )，713-714 
interrupt chaining (PURE), 581 
interrupt-controller hardware (中 断 控 制 器 硬件 )， 
581 
interrupt-dispatch table (Windows 7 ) (中 断 调 度 
K), 755-756 
interrupt-driven data transfer (中 断 驱动 数据 传输 )， 
428 
interrupt driven operating system (中 断 驱动 的 操 
作 系 统 )，21-24 
interrupt-handler routines (中 断 处 理 程 序 )，580 
interrupt latency (中 断 延 迟 )，224-225 
interrupt priority levels (中断 优先 级 )，581 
interrupt-request line (中 断 请 求 线 )，580 
interrupt-handler routines (ISR， 中 断 处 理 程 序 )， 
752 
interrupt vector (中 断 向 量 )，8-9，354，581 
intruders (入 侵 者 )，642 
intrusion detection (入侵 检测 )，675-678 
intrusion-detection systems ( IDS， 入 侵 检测 系统 )， 
675-678 
intrusion-prevention systems ( IDPS, ADHRA 
统 )，676 
inverted page tables (HEAK), 375-377, 434 
I/O (input/output, $A / Hirt), 4, 12 
memory-mapped (内 存 映射 )，427-428 
overlapped ($Æ), 805-807 
programmed (程序 控制 的 )，428 
IO-bound processes (1/0 密集 型 进程 )，111 
I/O burst (IO 执行 )，202 


IO channel (1/0 通道 )，604 
IO interlock (IO 联 锁 )，436-437 
I/O manager (IO 管理 器 ) 767-768 
I/O operations ( operating system service) ( IO 操 
作 (操作 系统 服务 ) )，54-55 
IO ports (1/0 端口 )，427 
I/O Request packet (IRP, I/O 请 求 分 组 )，767 
iOS operating system (iOS 操作 系统 )，82-83 
I/O subsystem (1/0 FRE), 29-30 
kernels in (AK), 592-598 
procedures supervised by (由 ……' 监 督 的 程序 )， 
598 
VO system (1/0 (系统 ))，575-576 
application interface (应 用 接口 )，585-592 
block and character devices ( 块 与 字符 设备 )， 
588 
clocks and timers (时 钟 与 定时 器 )，589-599 
network devices (网 络 设备 )，598-599 
nonblocking and asynchronous I/O ( 非 阻塞 
SH## VO), 590-591 
vectored I/O (向 量 /O), 591-592 
hardware (硬件)，576-585 
direct memory access (直接 内 存 访问 )，583- 
585 
interrupts (Hf), 580-583 
polling ( 轮 询 )，579 
kernels (内 核 )，592-598 
buffering (缓冲 )，593-594 
caching (缓存 )，594-595 
data structures (数据 结构 )，596-597 
error handling (错误 处 理 )，595-596 
I/O scheduling (IO 调度 )，592-593 
and I/O Subsystem (与 1/0 了 于 系统 )，598 
protection (保护 )，596 
spooling and device reservation 〈( 假 脱 机 与 设 
备 预 留 )，595 
Linux, 729-731 
block devices (i), 729-731 
character devices (字符 设备 )，730，731 
STREAMS mechanism ( 流 机 制 )，601-603 
and system performance (与 系统 性 能 )，603- 
606 





transformation of requests to hardware operations 

(请 求 转换 成 硬件 操作 )，599-600 

IP (Internet Protocol)( 互 联 协议 )，665-667 

iPad (苹果 平板 )， 见 Apple iPad 

IPC (进程 间 通 信 )， 见 interprocess communication 

IPSec (Internet 协议 安全 性 )，666 

IRP (I/O request packet, 1/0 请 求 分 组 )，767 

ISCSI (Internet 小 型 计算 机 系统 接口 )，544 

ISR ( interrupt service routines, "PE IRS FEF), 
460 


Java 
file locking in (文件 锁定 )，460-461 
language-based protection in (基于 语言 的 保护 )， 
630-635 
monitors in 〈 管 程 )，282 
Java threads (Java 线程 )，174-175 
Java Virtual Machine (JVM, Java 虚拟 机 )，105 ， 
633-634 
jobs, processes vs. (作业 ， 对 比 进程 )，104-105 
job objects (作业 对 象 )，764 
job pool (作业 池 )，20 
job queue (作业 队列 )，109 
job scheduler (作业 调度 程序 )，110 
job scheduling (作业 调度 )，20 
journaling (日 志 )，727-728 
journaling file systems (日 志文 件 系统 )，521 
JVM (Java 虚拟 机 )， 见 Java Virtual Machine 


K 


KB (kilobyte,， 千 字 节 ，1024 字 节 ),，9 
K Desktop Environment (KDE, K 桌面 环境 )，58 
kernel (内 核 )，6，592-598 
buffering (rF), 593-594 
caching (2247), 594-595 
computational (计算 )，747 
data structures (数据 结构 )，596-597 
error handling (错误 处 理 )，595-596 
I/O scheduling (1/0 调度 )，592-593 
and I/O subsystem (1/0 子 系统 )，598 
Linux, 696-698 
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nonpreemptive ( 非 抢占 式 )，257 
preemptive (抢占 式 )，257 
protection (保护 )，596 
spooling and device reservation ( 假 脱 机 与 设备 
预 留 )，595 
task synchronization ( in Linux) (任务 同步 ，712- 
714 
Windows 7, 751-756, 789 
kernel code (内 核 代码 )，94 
kernel data structures (内 核 数据 结构 )，31-34 
arrays (数组 )，31 
bitmaps (位 图 )，34 
hash functions and maps (了 哈 希 函数 与 映射 )，33- 
34 
lists (列表 )，31-33 
queues (队列 )，32 
stacks (FR), 32 
trees (#}), 31-33 
kernel environment (内 核 环境 )，82 
kernel extensions (内 核 扩展 )，82 
kernel memory allocation (内 核 内 存 分 配 )，428- 
431 
kernel mode (内 核 模式 )，22，701 
Kernel-Mode Driver Framework (KMDF ， 内 核 模 
式 驱 动 程序 框架 )，768 
kernel-mode threads (KT， 内 核 模 式 线程 )，756 
kernel modules (内 核 模块 )，703-706 
conflict resolution (冲突 解决 )，705-706 
driver registration (驱动 程序 注册 )，704-705 
Linux, 94-99 
management of (管理 )，703-704 
kernel threads (内 核 线程 )，167 
kernel transaction manager (KTM， 内 核 事 务 管 
理 器 )，773 
Kernighan’s Law (Kernighan 法 则 )，85 
keys ( 密 钥 )，624，627 
private (私有 的 )，662 
public (公共 的 )，662 
key distribution ( 密 钥 分 发 )，665 
key ring ( 密 钥 环 )，665 
keystream ( 密 钥 流 )，661 
keystroke logger ( 击 键 记录 器 )，653 
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kilobyte (KB ， 千 字 节 ，1024 字 节 )，9 

KMDF (Kernel-Mode Driver Framework， 内 核 模 
式 驱 动 程序 框架 )，768 

KT (kernel-mode threads， 内 核 模 式 线程 )，756 

KTM (kernel transaction manager， 内 核 事 务 管 
理 器 )，773 
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language-based protection systems (基于 语言 的 保 
护 系统 )，630-635 
compiler-based enforcement (基于 编译 程序 的 
强制 )，630-633 
Java，633-635 
LAN (局 域 网 )， 见 local-area networks 
latency (延迟 ) 
in real-time systems( 实 时 系统 )，223-225 
target (目标 )，711 
layers ( of network protocols) ( 层 (网 络 协议 ))， 
665 
layered approach ( operating system structure) (分 
层 法 〈 操 作 系统 结构 ))，77-79 
lazy swapper (惰性 交换 器 )，393 
LCN (logical cluster numbers) (G2 48725), 775 
LDAP ( 轻 量 级 目录 访问 协议 )， 见 lightweight 
directory access protocol 
LDT (local descriptor table) (局 部 描述 符 表 )，378 
least frequently used ( LFU ) page-replacement 
algorithm (最 少 经 常 使 用 页 面 置换 算法 )， 
412 
least privilege, principle of (原则 ， 最 低 特 权 )， 
612-613 
least-recently-used ( LRU ) page replacement 
algorithm (最 近 最 少 使 用 页 面 调度 算法 )， 
408-410 
left child ( 左 子 节点 )，33 
LFH design〔 低 碎片 堆 设计 )，794 
LFU page-replacement algorithm (最 少 经 常 使 用 
页 面 置换 算法 )，412 
lgroups (延迟 组 )，417 
libraries ( 库 ) 
Linux system (Linux 系统 )，701-702 
shared (共享 )，352，392 


LIFO (后 进 先 出 )，32 
lightweight directory access protocol (LDAP， 轻 
量 级 目录 访问 协议 )，483 ，786 
limit register (界限 地 址 寄存 器 )，346 
linear addresses (线性 地 址 )，379 
linear lists (files) ( (文件 ) 线性 列表 )，504 
line discipline (线路 规程 )，731 
link (链接 ) 
communication (通信 )，125 
defined (定义 )，475-476 
hard ( 硬 )，477 
resolving (解决 )，476 
symbolic (符号 )，780 
linked disk space allocation (链接 硬盘 空间 分 配 )， 
507-509 
linked lists (链表 )，514-515 
Linked scheme index block (链接 方案 的 索引 块 )， 
S11 
linking, dynamic vs. static (链接 ， 动 态 对 比 静 态 )， 
351, 722-723 
Linux, 45, 695-740 
design principles for (设计 原则 )，700-703 
file systems (文件 系统 )，723-729 
ext3 file system (第 三 扩展 文件 系统 )，725- 
727 
journaling (H&), 727-728 
process (H€), 728-729 
virtual (Hed), 723-725 
history of (Ja), 695-700 
distributions (#47), 699 
first kernel ( 首 个 内 核 )，696-698 
licensing (许可 )，699-700 
system description (系统 描述 )，698 
interprocess communication (进程 间 通 信 )，732- 
733 
I/O system (1/0 系统 )，729-731 
block devices ( 块 设备 )，730-731 
character devices (字符 设备 )，731 
kernel modules (内 核 模 块 )，94-99，703-706 
memory management (内 存 管理 )，714-723 
execution and loading of user programs (用 户 
程序 的 执行 与 加 载 )，721 


physical memory (物理 内 存 )，715-718 
virtual memory (虚拟 内 存 )，718-721 
network structure (网络 结构 )，732-734 
process management (进程 管理 )，706-709 
fork() and exec() process model ( fork( 与 exec() 
进程 模型 )，706-708 
processes and threads (进程 与 线程 )，709 
process representation in (进程 表示 )，108 
scheduling in (调度)，709-714 
example (fij), 230-234 
kernel synchronization (内 核 同 步 )，712-714 
process (进程 )，710-711 
symmetric multiprocessing (对 称 多 人 处理)，714 
security model (安全 模型 )，735-738 
access control (访问 控制 )，736-738 
authentication( 认 证)，736 
swap-space management in (交换 空间 管理 )，554 
synchronization in (同步 )，284-285 
threads example (线程 例子 )，187-189 
Linux distributions (Linux 发 行 )，696，699 
Linux kernel (Linux 内 核 )，696-698 
Linux system (Linux 系统 ) 
components of (组 件 )，696，701-703 
obtaining the page size on (获取 页 面 大 小 )，364 
lists (列表 )，31-32，390 
Little’s formula (Little 公式 )，242 
LiveCD (可 直接 引导 并 运行 Linux 的 一 种 CD)，45 
LiveDVD (可 直接 引导 并 运行 Linux 的 一 种 DVD), 
45 
load balancing (负载 平衡 )，220-221 
loader (加 载 器 )，804 
loading (加 载 ) 
dynamic (动态 )，351 
in Linux，721-722 
load sharing (负载 分 配 )，218 
load time (加 载 时 )，348 
local-area networks (LAN， 局 域 网 )，17，37， 
654 
local descriptor table (LDT， 局 部 描述 符 表 )，378 
locality model (局 部 性 模型 )，419 
locality of reference (局 部 引用 )，396 
local procedure calls (LPC， 本 地 程序 调用 )，746 
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local replacement (局 部 置换 )，416 
local replacement algorithm ( priority replacement 
algorithm) (局 部 置换 算法 (优先 置换 算 
法 ))，419 
location (位 置 ) file (文件 )，456 
lock ( 锁 )，259，624 
acquire (获取 )，67 
advisory (建议 性 的 )，461 
exclusive (独占 )，460 
in Java API (Java API)，460-461 
mandatory (强制 性 的 )，461 
mutex (HJR), 262-264 
read-writer (5), 270-272 
release (释放 )，67 
shared (共享 )，460 
lock-key scheme ( 锁 — 钥匙 方案 )，624 
lock() operation (lock() 操作 )，460 
log-based transaction-oriented file systems (基于 
日 志 的 面向 事务 的 文件 系统 )，521-522 
log files (日 志文 件 )，85 
log-file service (日志 文件 服务 )，778 
logging area (记录 区 域 )，779 
logical address (逻辑 地 址 )，349 
logical address space (逻辑 地 址 空间 )，350 
logical blocks (44), 542 
logical cluster numbers (LCN, 25), 775 
logical file system (逻辑 文件 系统 )，497 
logical formatting (逻辑 格式 化 )，551 
logical memory (逻辑 内 存 )， 见 virtual memory 
logical records (逻辑 记录 )，465 
login (登录 )，network (网 络 )，483 
long-term scheduler (job scheduler) (长 期 调度 程 
序 (作业 调度 程序 ))，110 
LOOK scheduling algorithm (LOOK 调度 算法 )，549 
loopback( 回 送 )，136 
loosely-coupled systems ( 松 耦 合 的 系统 )，17 
love bug virus (ŽEJE), 678 
low-fragmentation heap ( LFH) design (EPE H HE 
设计 )，794 
low-level formatted disks, 542 
low-level formatting(disks)( 低 级 格式 化 (硬盘 ))， 
551 
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LPC (local procedure calls， 本 地 程序 调用 )，746 
LRU-approximation page replacement algorithm 


(近似 LRU 页 面 置换 算法 )，410-412 


M 


MAC (message authentication code， 消 息 认 证 码 )， 
664 
Mach operating system (Mach 操作 系统 )，79-80， 
129-132, 814-816 
Macintosh Operating System ( Macintosh 操作 系统 )， 
814 
Mac OS X (Mac OS X 操作 系统 )，82 
macro viruses ( 宏 病毒 )，651 
magic number (files) ( 幻 数 (文件 ))，463 
magnetic disk (磁盘 或 硬盘 )，10，539-541， 见 
disk 
magnetic tapes (磁带 )，541-542 
mailboxes (邮箱 )，126 
mailbox set (邮箱 集合 )，132 
mainframes (大 型 机 )，5 
main memory (内 存 )，9-10 
and address binding (地 址 绑 定 )，348-349 
contiguous allocation of (连续 分 配 )，354-355 
and fragmentation (碎片 )，367-368 
mapping (映射 )，355 
methods (方法 )，366-367 
protection (保护 )，355 
and dynamic linking (动态 链接 )，351-352 
and dynamic loading (动态 加 载 )，351 
and hardware (硬件 )，346-348 
Intel 32 and 64-bit architectures example ( Intel 
32 位 与 64 位 架构 举例 ) 
paging (分 页 )，379-381 
segmentation (分 段 )，378-379 
and logical vs. physical address space (逻辑 地 
址 空间 对 比 物 理 地 址 空间 )，350 
paging for managementof (分 页 管理 )，360-377 
basic method (基本 方法 )，361-366 
hardware (硬件 )，366-368 
hashed page tables (了 哈 希 页 表 )，374 
hierarchical paging (分 层 页 表 )，372-374 
Intel 32 and 64-bit architectures example (Intel 


32 位 与 64 位 架构 举例 )，379-381 
inverted page tables (倒置 页 表 )，375-377 
and Oracle SPARC Solaris, 377 
protection (保护 )，369-370 
and shared pages (共享 页 )，370-371 
segmentation for management of (分 段 管理 )， 
358-360 
basic method (基本 方法 )，358-360 
hardware (硬件 )，359-360 
Intel 32 and 64-bit architectures example ( Intel 
32 位 与 64 位 架构 举例 )，378-379 
and swapping (交换 )，352-354 
MAN (metropolitan-area networks, ， 城 域 网 )，37 
mandatory file-locking mechanisms (强制 文件 锁 
定 机 制 )，461 
man-in-middle attack (中间 人 攻击 )，643 
many-to-many multithreading model (多 对 多 线程 
模型 )，168-169 
many-to-one multithreading model (多 对 一 线程 
模型 )，167 
marshaling ( 封 送 )，783 
Mars Pathfinder (火星 探 路 者 )，268 
maskable interrupts (可 屏蔽 中 断 )，581 
masquerading (伪装 )，642 
mass-storage management (大 容量 存储 器 管理 )，27 
mass-storage structure (大 容量 存储 结构 )，539-542 
disk attachment (磁盘 连接 ) 
host-attached (主机 连接 )，543 
network-attached (网 络 连接 )，543-544 
storage-area networks (存储 域 网 )，544 
disk management (硬盘 管理 ) 
bad blocks( 坏 块 )，552-554 
boot block (引导 块 )，552 
formatting of disks (硬盘 格式 化 )，551-552 
disk scheduling algorithms (硬盘 调度 算法 )，544- 
550 
C-SCAN (循环 扫描 )，548 
FCFS ( 先 到 先 服务 )，545-546 
LOOK (看 )，549 
SCAN (HH), 547-548 
selection (选择 )，549-550 
SSTF (最 短 寻 道 时 间 优先 )，546-547 


disk structure (硬盘 结构 )，542-543 
extensions (扩展 )，564 
magnetic disks (硬盘 )，539-541 
magnetic tapes (磁带 )，541-542 
RAID structure (RAID 结构 )，556-566 
performance improvement (性 能 提高 )，558 
problems with (问题 )，564-566 
RAID levels (RAID 级 别 )，559-563 
reliability improvement (可 靠 性 提高 )，557- 
558 
stable-storage implementation (稳定 存储 实现 )， 
566-568 
swap-space management (交换 空间 管理 )，554- 
556 
master boot record (MBR， 主 引导 记录 )，552 
master file directory (MFD， 主 文件 目录 )，471 
master file table ( 主 控 文件 表 )，498 
master key (+49), 627 
master secret (SSL, +3894), 668 
matchmakers (交会 服务 程序 或 月 老 )，139 
MB (megabyte， 兆 字 节 )，9 
MBR (master boot record， 主 引导 记录 )，552 
MCP operating system (MCP 操作 系统 )，816 
mean time to data loss (平均 数据 丢失 时 间 )，557 
mean time to failure (平均 故障 时 间 )，557 
mean time to repair (平均 维修 时 间 )，557 
mechanisms (机 制 )，74 
medium-term scheduler (中 期 调度 程序 )，111 
megabyte (MB, ， 兆 字 节 )，9 
memory (内 存 ) 
anonymous (#%), 556 
core (核心 )，807 
direct memory access (直接 内 存 访问 )，12 
direct virtual memory access (直接 虚拟 内 存 访 
问 )，584 
logical (逻辑 )，21，390-391 
main ( 主 )， 见 main memory 
over-allocating of (过 度 分 配 )，402 
physical (物理 )，21 
secondary (辅助 )，396 
semiconductor (半导体 )，11 
shared (共享 )，120，392 
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transactional (344), 289-290 
unified virtual memory (统一 虚拟 内 存 )，517 
virtual (虚拟 内 存 )， 见 virtual memory 
memory-address register (内 存 地 址 寄存 器 )，349 
memory allocation (内 存 分 配 )，356-357 
memory leaks (内 存 泄漏 )，99 
memory management (内 存 管理 )，25-26 
in Linux (Linux 的 )，714-723 
execution and loading of user programs (用 户 
程序 的 执行 与 加 载 )，721-723 
physical memory (物理 内 存 )，715-718 
virtual memory (虚拟 内 存 )，718-721 
in Windows 7，793-795 
heaps ( 堆 )，794 
memory-mapping files (内 存 映射 文件 )，793- 
794 
thread-local storage (线程 本 地 存储 )，795 
virtual memory (虚拟 内 存 )，793 
memory-management unit ( MMU， 内 存 管理 单 
Ju), 350, 378, 761 
memory-mapped files (内 存 映 射 文件 )，759 
memory-mapped I/O (内存 映射 1O)，427-428，577 
memory mapping (内 存 映射 )，355，422-428 
basic mechanism (基本 机 制 )，422-424 
defined (定义 )，422 
I/O, memory-mapped (内 存 映 射 )，355，422- 
428 
in Linux, 721-722 
in Win32 API (Win32 API 的 )，425-427 
memory-mapping files (内 存 映射 文件 )，793-794 
memory protection (内 存 保护 )，355 
memory-resident pages (内 存 页 )，396 
memory stall (内 存 停顿 )，222 
memory-style error-correcting-code organization 
(内 存 方式 的 差错 纠正 组 织 )，560 
message authentication code ( MAC， 消 息 认证 码 )， 
664 
message digest (hash value)( 报 文摘 要 ( 哈 希 值 ))， 
664 
message modification (消息 窜改 )，642 
message passing (消息 传递 )，120 
message-passing model (消息 传递 模型 )，70，124- 


benefits of (优点 )，163-164 
cancellation (撤销 )，thread (线程 )，183-184 
coarse-grained(〈 粗 粒度 的 )，222 
and exec() system call (系统 调用 exec()), 181 
fine-grained( 细 粒度 的 )，222 
and fork() system call (系统 调用 fork()), 181 
models of (#2 #4), 167-169 
and scheduler activations (调度 程序 激活 )，185- 
186 
and signal handling (信号 处 理 )，181-183 
and thread-specific data (本 地 存储 )，185 
multi-touch hardware (多 点 触 控 硬 件 )，774 
MUP ( Multiple Universal naming convention 
Provider， 多 重 通用 命名 约定 提供 程序 )， 
784 
mutant (Windows 7 ) (通用 互 斥 对 象 )，753 
mutex (HJF) 
adaptive ( 自 适 应 )，285 
in Windows 7, 753 
mutex locks (HJF), 262-264, 313-314 
mutual exclusion (He), 314-315 
mutual-exclusion condition (deadlocks) ( 互 斥 条 件 
( 死 锁 ) )，319 


names (名 称 ) 
in Windows 7, 757 
named pipes (命名 管道 )，783 
namespaces (命名 空间 )，707 
naming (命名 )，125-127，482-483 
domain name system (域名 系统 )，482 
of files (文件 )，456 
lightweight directory access protocol ( 轻 量 级 目 
录 访 问 协 议 )，483 
national-language-support (NLS) API (国际 语言 
支持 API)，749 
NDIS (network device interface specification ) (网 
络 设备 接口 规范 )，781 
network (网 络 )， 见 local-area networks (LAN); 
wide-area networks (WAN) 
defined (72%), 37 
in Linux, 733-735 
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metropolitan-area (MAN, WRR), 37 
security in (ZE), 644 
small-area (小 区 域 )，37 
threats to (威胁 )，645-653 
in Windows 7，781-786 
Active Directory (活动 目录 )，786 
domains ( 域 )，784 
interfaces (#241), 781 
protocols (HPX), 782-784 
redirectors and servers ( 重 定向 器 与 服务 器 )， 
783-784 
wireless (无 线 )，35 
network-attached storage (网 络 连 接 存 储 )，543- 
544 
network computers (网 络 计 算 机 )，35 
network devices (网 络 设备 )，588-589，734 
network device interface specification (NDIS) (网 
络 设备 接口 规范 )，781 
network file systems (NFS， 网 络 文件 系统 )，523- 
529 
mount protocol (安装 协议 )，526 
NFS protocol (NFS 协议 )，526-527 
path-name translation (路 径 名 转换 )，526-527 
remote operations (远程 操作 )，529 
network information system ( NIS， 网 络 信息 服务 )， 
482 
network layer (网 络 层 )，665 
network-layer protocol (网 络 层 协 议 )，665 
network login (网 络 登 录 )，483 
network operating systems (网 络 操作 系统 )，38 
new state (新 状态 )，105 
NFS (网 络 文件 系统 )， 见 network file systems 
NFS protocol (NFS 协议 )，526-527 
NIS (network information system， 网 络 信息 服务 )， 
482 
NLS (national-language-support) API (国际 语言 
支持 API)，749 
nonblocking IO ( 非 阻塞 1/O)，590-591 
nonblocking (asynchronous) message passing ( 非 
阻塞 (异步 ) 消息 传递 )，127 
noncontainer objects (Windows 7 ) ( 非 容 器 对 象 )， 
685 
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nonmaskable interrupt ( 非 屏蔽 中 断 )，581 

nonpreemptive kernels ( 非 抢占 式 内 核 )，257 

nonpreemptive scheduling ( 非 抢占 调度 )，204 

nonrepudiation (不 可 否认 )，664-665 

nonresident attributes (非常 驻 属性 )，776 

nonsignaled state ( 非 触 发 状态 )，283 

non-uniform memory access (NUMA ， 非 均匀 内 
存 访 问 )，16，416-417，746 

nonvolatile RAM (NVRAM， 非 易 失 性 RAM)，11 

nonvolatile RAM (NVRAM) cache ( 非 易 失 性 RAM 
的 缓存 )，558 

nonvolatile storage ( 非 易 失 存 储 )，11-12 

no-preemption condition (deadlocks)( 非 抢占 条 件 
( 死 锁 ) )，320 

NTFS (Windows NT 文件 系统 )，775-777 

NUMA ( 非 均匀 内 存 访问 )， 见 non-uniform memory 
access 

NVRAM (nonvolatile RAM) ( 非 易 失 性 RAM)，11 

NVRAM (nonvolatile RAM) cache ( 非 易 失 性 RAM 
的 缓存 )，558 
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objects (对 象 ) 
access lists for (访问 列表 )，36-37 
in cache (缓存 )，429-430 
free (43/4), 430 
hardware vs. software (硬件 对 比 软件 )，613 
in Linux，717 
used (使 用 )，430 
in Windows 7，756-758 
object files (目标 文件 )，463 
object linking and embedding ( OLE， 对 象 链接 和 
嵌入 )，784 
object types (对象 类 型 )，503，751 
off-line compaction of space ( 线 下 空间 压缩 )，507 
OLE (object linking and embedding， 对 象 链接 和 
A), 784 
OLPC (One Laptop per Child， 每 个 孩子 一 台 笔 
记 本 )，814 
one-time pad (一 次 性 pad)，673 
one-time passwords (一 次 密码 )，672 
one-to-one multithreading model (一 对 一 线程 模 


型 )，168 
on-line compaction of space (在 线 空 间 压 缩 )，507 
open-file tables (打开 文件 表 )，459，498-499 
OpenMP (一 种 隐 式 线程 技术 )，179-180，290-291 
open operating systems (开放 操作 系统 )，653 
open() operation (操作 open())，469 
OpenSolaris (开源 Solaris)，46 
open-source operating systems (开源 操作 系统 )， 
43-48 
operating system (操作 系统 ) 
closed-source( 闭 源 )，44 
defined (ŒX), 3, 6 
design goals for (设计 目标 )，73-74 
early (早期 )，800-807 
dedicated computer systems (专用 计算 系统 )， 
800-801 
overlapped I/O ($Æ IO)，805-807 
shared computer systems (共享 计算 系统 )，802- 
805 
feature migration with (特征 迁移 )，799-800 
features of (特征 )，3 
functioning of (功能 )，3-6 
hybrid systems (混合 系统 )，81-84 
implementation of (实现 )，74-75 
interrupt driven〈 中 断 驱动 )，21-24 
mechanisms for (机 制 )，74 
network (网络 )，38 
open-source (开源 )，43-47 
operations of (操作 ) 
modes (模式 )，21-23 
and timer (定时 器 )，24 
policies for (策略 )，74 
portability of (可 移植 性 )，748-749 
real-time (实时 )，43 
as resource allocator (资源 分 配器 )，5 
security in (安全 )，644 
services provided by (提供 的 服务 )，53-56 
structure of (结构 )，19-21，76-84 
layered approach (分 层 法 )，77-79 
microkernels( 微 内 核 )，79-80 
modules (模块 )，80-81 
simple structure (简单 结构 )，76 
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study of (%3), 48 
system’s view of (系统 视角 )，5 
user interface with (用 户 接 口 )，4-5，51-53 
optimal page replacement algorithm (最 优 置 换算 
法 )，406-407 
Oracle SPARC Solaris, 377 
Orange Book (HB (美国 国防 部 的 可 信 计 算 机 
系统 评估 准则 ))，744 
OS/2 operating system (OS/2 操作 系统 )，741-742 
OSI model (OSI 模型 )，666 
OSI reference model (OSI 参考 模型 )，666 
out-of-band key delivery ( 带 外 密 钥 传送 )，665 
overallocation (of memory) (过 度 分 配 (内 存 ))， 
402 
overlapped I/O (重合 I/O), 805-807 
owner rights (Linux) (所 有 者 权限 )，736-737 


P 


p (page number, p H43), 361 

PaaS (Platform as a service, 平台 即 服务 )，42 

packets (数据 包 或 数据 分 组 )，735 

packing (封装 或 包装 )，464 

pages (页 ) 

defined (定义 )，360 
shared (共享 )，370-371 

page address extension (PAE， 页 地 址 扩展 )，380 

page allocator (Linux)( 页 面 分 配器 )，715 

page-buffering algorithms (页 面 缓 冲 算 法 )，412- 
413 

page cache (页 面 缓存 )，517，718 

page directory (页 目录 )，759 

page directory entries (PDE， 页 目录 条 目 )，759 

page directory pointer table (页 目录 指针 表 )，380 

page fault ( 缺 页 错误 )，395 

page-fault frequency ( PFF， 缺 页 错误 频率 )，421- 
422 

page-fault rate ( 缺 页 错误 率 )，399 

page frames (页 框 )，759 

page-frame number ( PFN) database (页 框 码 数据 
库 )，762-763 

page number (p) (p 页 码 )，361 

page offset (d) (d 页 偏 移 )，362 


pageout (Solaris )(#¢ 91), 438-439 
pageout policy (Linux)( 页 面 换 出 策略 )，720 
pager (term)( 调 页 程序 (术语 ))，393 
page replacement (页 面 置换 )，401-413， 见 
frame allocation 
and application performance (应 用 程序 性 能 )， 
413 
basic mechanism (基本 方案 )，402-405 
counting-based page replacement (基于 计数 的 
页 面 置换 )，412 
FIFO page replacement (FIFO 页 面 置换 )，405- 
406 
global vs local (全 局 对 比 局 部 )，416 
LRU-approximation page replacement (近似 LRU 
页 面 置换 )，410-412 
LRU page replacement (LRU 页 面 转换 )，408- 
410 
optimal page replacement (最 佳 页 面 置换 )， 
406-407 
and page-buffering algorithms (页 面 缓冲 算法 )， 
412-413 
page replacement algorithm (页 面 置换 算法 )，404 
page size (页 面 大 小 )，432-433 
page slots (WHY), 556 
page table (X), 361-366, 396, 758 
clustered (RK), 374 
forward-mapped (向 前 映射 )，373 
hardware for storing (存储 …… 硬 件 )，366-368 
hashed( 哈 希 )，374 
inverted (倒置 )，375-377，434 
page-table base register (PTBR， 页 表 基 地 址 寄存 
器 )，366 
page table entries (PTE， 页 表 条 目 )，759 
page-table length register ( PTLR， 页 表 长 度 寄存 
器 )，370 
page-table self-map (页 表 自 我 映射 )，758 
paging (分 页 )，360-377 
basic method of (基本 方法 )，361-366 
hardware support for (硬件 支持 )，366-368 
hashed page tables ( 哈 希 页 表 )，374 
hierarchical (分 层 )，372-374 
Intel 32 and 64-bit architectures example (Intel32 
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位 与 64 位 架构 举例 )，379-381 
inverted (倒置 )，375-377 
in Linux，720 
and memory protection (内 存 保护 )，369-370 
and Oracle SPARC Solaris, 377 
priority (fi 5642), 440 
and shared pages (共享 页 )，370-371 
swapping vs. (对 比 交 换 )，554 
paging mechanism (Linux)( 分 页 机 制 )，720 
paired passwords (配对 密码 )，672 
PAM ( pluggable authentication modules， 可 插 拔 
认证 模块 )，736 
parallelism【《〈 并 行 性 )，164，166-167 
parallelization (并 行 计算 )，17 
parallel systems (并 行 系统 )， 见 multiprocessor 
systems 
parent process ( 父 进程 )，114 
partition (分 区 )，356，467，468，501-502 
boot (引导 )，552 
raw (原始 )，555 
root ( 根 )，501 
partition boot sector (分 区 引导 扇 区 )，498 
partitioning, disk (分 区 ， 硬 盘 )，551 
passwords (密码 )，669-673 
one-time (一 次 )，672-673 
securing (安全 )，671-672 
vulnerabilities (漏洞 )，669-671 
path name (路 径 名 )，472 
path names (路 径 名 ) 
absolute (绝对 )，474 
relative (相对 )，474 
path-name translation (路 径 名 称 转换 )，528 
PCB (进程 控制 块 )， 见 process control blocks 
PCI bus (PCI 总 线 )，576 
PCS ( process-contention scope， 进 程 竞争 范围 )， 
217 
PC systems (个 人 计算 机 系统 )，3，775 
PDA (personal digital assistants， 个 人 数字 助 
理 )，11 
PDE (page directory entries， 页 目录 条 目 )，759 
peer-to-peer computing (对 等 计算 )，39-40 
penetration test (渗透 测试 )，674 


performance (性 能 ) 
and allocation of disk space (硬盘 空间 分 配 )，512- 
513 
and I/O system (IO 系统 )，603-606 
of Windows 7, 746-748 
performance improvement (性 能 改进 )，517-520， 
558 
performance tuning( 性 能 优化 )，517-520，558 
periodic processes (周期 性 的 进程 )，226 
periodic task rate (周期 任务 速率 )，226 
permissions (权限 )，488 
per-process open-file table (每 个 进程 的 打开 文件 
表 )，499 
personal computer (PC) systems (个 人 计算 机 系 
统 )，3，775 
personal digital assistants ( PDA， 个 人 数字 助理 )， 
11 
personal firewalls (个 人 防火 墙 )，681 
personal identification number (PIN， 个 人 识别 号 
码 )，672 
personalities (个 性 )，81 
Peterson’s solution ( Peterson 解决 方案 )，257- 
259 
PFF ( page-fault frequency， 缺 页 错误 频率 )，421- 
422 
PFN ( page-frame number) database (页 帧 码 数据 
FE), 762 
phishing (网 络 钓鱼 )，644 
physical address (物理 地 址 )，349 
physical address space( 物 理 地 址 空间 )，350 
physical formatting (物理 格式 化 )，551 
physical memory (物理 内 存 )，21，390-391，715- 
718 
physical security (物理 安全 )，643 
PIC (position-independent code， 位 置 无 关 代码 )， 
723 
pid (process identifier， 进 程 标识 符 )，114 
PIN (personal identification number， 个 人 识别 号 
码 )，672 
pinning (固定 )，769 
PIO (程序 IO)， 见 Programmed IO 
pipes (#7iH), 140-145 
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anonymous (#44), 141-143 

named (7%), 143-145 

ordinary (普通 )，140-143 

use of (使 用 )，146 
pipe mechanism (管道 机 制 )，732 
Platform as a service (PaaS， 平 台 即 服务 )，42 
platter (disks)( 盘 片 (硬盘 ))，539-540 
plug-and-play and ( PnP) manager (BJ 4 EP FH 4 


HAF), 771 

pluggable authentication modules (PAM, I 4fidk 
认证 模块 )，736 

point-to-point tunneling protocol ( PPTP， 点 到 点 
隧道 协议 )，782 


policy (策略 )，74 
group (组 )，786 
security (安全 )，673-674 
policy algorithm (Linux) (策略 算法 )，720 
polling ( 轮 询 )，579 
polymorphic viruses (多 态 病毒 )，652 
pools ( 池 ) 
of free pages (空闲 页 面 )，400 
of storage (存储 )，566 
pop (弹出 )，32 
pop-up browser windows (弹出 浏览 窗口 )，646 
ports (sm), 427, 576 
portability (可 移植 性 )，748-749 
portals (门户 网 站 )，35 
port driver (端口 驱动 程序 )，768 
port scanning (端口 扫描 )，657 
position-independent code (PIC, MEXRI), 
723 
positioning time (disks) (定位 时 间 (EAE) ), 540 
POSIX, 740, 742, 745-746 
interprocess communication example (IPC 系统 
Z), 128-129 
real-time scheduling (实时 调度 )，230 
possession (capability) (拥有 (能力))，623 
POST (power-on self-test) (上 电 自 检 )，773 
power manager ( Windows 7 ) (电源 管理 器 )，771- 
772 
power-of-2 allocator (2 的 宕 分 配器 )，428 
power-on self-test (POST， 上 电 自 检 )，773 


PPTP ( point-to-point tunneling protocol， 点 到 点 
隧道 协议 )，782 
P+Q redundancy scheme ( P+Q 宛 余 方案 )，561- 
562 
preemptive kernels (抢占 式 内 核 )，257 
preemptive scheduling (抢占 调度 )，203-204 
premaster secret (SSL， 预 主 密 钥 )，668 
prepaging ( 预 调 页 面 )，431-432 
primary thread (主线 程 )，791 
principle of least privilege (最 低 特 权 原 则 )，612- 
613 
priority-based scheduling (优先 权 调度 )，225-227 
priority-inheritance protocol (优先 级 继承 协议 )， 
268，286 
priority inversion (优先 级 反 转 )，267-268，286 
priority number (优先 值 )，280 
priority paging (优先 权 调 页 )，440 
priority replacement algorithm (优先 置换 算法 )， 
419 
priority scheduling algorithm (优先 级 调度 算法 )， 
210-211 
private cloud ( 私 云 )，42 
private keys( 私 钥 )，662 
privileged instructions (特权 指令 )，22 
privileged mode (特权 模式 )， 见 kernel mode 
privilege levels (特权 级 别 )，23 
probes (DTrace) (DTrace 探头 )，87 
procedural languages (过 程式 语言 )，291 
process (进程 )，20 
background (后 台 )，72-73，113，214，236 
communication between (进程 间 通 信 )， 见 
interprocess Communication 
components of (组 成 )，104-105 
context of (上 下 文 )，112，708 
and context switches (上 下 文 切 换 )，112 
cooperating (协作 )，120 
defined (定义 )，103 
environment of (环境 )，707-708 
foreground (前 台 )，113，214，236 
heavyweight (重量 级 )，161 
independent (独立 )，120 
IO-bound vs. CPU-bound (1/0 密集 型 相对 CPU 
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密集 型 )，111 
jobs vs.( 对 比 作 业 )，104 
in Linux, 709 
multithreaded (多 线程 )， 见 multithreading 
operations on (操作 )，113-118 
creation (创建 )，114-118 
termination (终止 )，118-120 
programs vs.( 对 比 程 序 )，24-25，104-105 
scheduling of (调度 )，108-112 
single-threaded (单线 程 )，161 
state of (状态 )，105 
threads performed by (执行 的 线程 )，104 
in Windows 8，788 
process-contention scope ( PCS ， 进 程 竞争 范围 )， 
217 
process control blocks (PCB, task control blocks) 
(进程 控制 块 (任务 控制 块 ))，105-106 
process-control system calls (进程 控制 系统 调用 )， 
64-69 
process file system (Linux) (进程 文件 系统 )，728- 
729 
process identifier (pid， 进 程 标识 符 )，114 
process identity (Linux) (进程 特征 )，706-707 
process management (进程 管理 ) 
about (关于 )，24-25 
in Linux, 706-709 
fork() and exec() process model (fork()/exec() 
进程 模型 )，706-708 
processes and threads (进程 与 线程 )，709 
process manager ( Windows 7 ) (进程 管理 器 )， 
764-765 
process mix (进程 组 合 )，111 
process objects (Windows 7 )( 进 程 对 象 )，753 
processor affinity (处 理 器 亲 和 性 )，220 
Processor groups (进程 分 组 )，747 
processor sets (处 理 器 组 )，220 
process sharing (进程 共享 )，213 
process representation (Linux)( 进 程 表示 )，108 
process scheduler (进程 调度 器 )，109 
process scheduling (进程 调度 ) 
in Linux, 710-711 
thread scheduling vs.( 对 比 线程 调度 )，201 


process synchronization (进程 同步 ) 
about (关于 )，253-255 
alternative approaches to( 替 代 方 法 )，288-292 
functional programming languages (函数 式 编 
程 语言 )，291-292 
OpenMP, 290-291 
transactional memory (344 AFF), 289-290 
bounded-buffer problem (有 界 缓冲 问题 )，269 
critical-section problem (临界 区 问题 )，256-257 
hardware solution to( 硬 件 解决 )，259-262 
Peterson’s solution to (Peterson 的 解决 )，257- 
259 
software solution to (软件 解决 )，262-263 
dining-philosophers problem (哲学 家 就 餐 问题 )， 
272-273, 277-279 
examples of (例子 ) 
Java, 200 
Linux, 284-285 
Pthreads, 287-288 
Solaris, 285-287 
Windows, 283-284 
monitors for (F), 273-282 
dining-philosophers solution (哲学 家 就 餐 问 
题 的 解答 )，277-279 
resumption of processes within (进程 重启 )， 
280-282 
semaphores, implementation using (信号 量 ， 
实现 采用 )，279-280 
usage (使 用 )，275-277 
readers-writers problem (读者 -作者 问题 )，270- 
272 
semaphores for (信号 量 )，263-268 
process termination, deadlock recovery by (进程 
Aik, FBR), 333-334 
production kernels (Linux) (Linux 生产 内 核 )，697 
profiling (DTrace) (##T), 86-87 
programs, processes vs. (程序 ， 对 比 进 程 )，104- 
105， 见 application programs 
program counter (程序 计数 器 )，25，104 
program execution (operating system service) ( 程 
序 执行 (操作 系统 服务 ))，54 
program files (程序 文件 )，480 


program loading and execution (程序 加 载 与 执 
行 ), 72 
programmable interval timer (可 编程 间隔 定时 器 )， 
589 
programmed I/O (PIO, 程序 控制 /O), 428, 583 
programming-languages support (程序 语言 支持 )， 
645-653 
program threats (程序 威胁 )，645-653 
logic bombs (逻辑 炸弹 )，647 
stack- or buffer overflow (堆栈 或 缓冲 区 溢出 )， 
647-650 
trap doors (后 门 )，646 
Trojan horses (特洛伊 木马 )，645-646 
viruses (病毒 )，650-653 
projects (项 目 )，239 
proportional allocation (比例 分 配 )，415 
proportional share scheduling (比例 分 享 调度 )， 
229-230 
protection (保护)，71，611 
access control for (访问 控制 )，486-489 
access matrix as model of (访问 矩阵 模型 )，618- 
622 
control，access〈 控 制 ， 访 问 )，625-626 
implementation (SEL), 622-625 
capability-based systems (基于 能 力 的 系统 )， 


627-630 
Cambridge CAP system (剑桥 CAP 系统 )， 
629-630 


Hydra, 627-629 
in computer systems (计算 机 系统 )，29-31 
domain of (保护 域 )，613-614 
MULTICS example (MULTICS 例子 )，616-618 
structure (结构 )，614-615 
UNIX example (UNIX 例子 )，615-616 
error handling (错误 处 理 )，595-596 
file (文件 )，480 
of file systems (文件 系统 )，486-489 
goals of (目的 )，611-612 
I/O, 596 
language-based protection systems (基于 语言 的 
保护 系统 )，630-635 
compiler-based enforcement (基于 编译 程序 
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的 实现 )，630-633 
Java, 633-635 
as operating system service (作为 操作 系统 服 
5), 55-56 
in paged environment (分 页 环境 下 的 )，369-370 
permissions (权限 )，488 
and principle of least privilege (最低 特权 原则 ), 
612-613 
and revocation of access rights (访问 权限 的 撤 
El), 626-627 
security vs. (ZE tLXT), 644 
static vs dynamic (静态 的 比较 动态 的 )，614 
from viruses (病毒 )，680-682 
protection domain (保护 域 )，614 
protection mask (Linux) (保护 掩 码 )，737 
protection subsystems ( Windows 7 ) (保护 子 系统 )， 
750 
protocols (协议 ) 
discovery (发 现 )，39 
Windows 7 networking (Windows 7 联网 )，782- 
784 
providers (DTrace) (探头 提供 者 )，87 
PTBR (page-table base register) (页 表 基 地 址 寄存 
器 )，366 
PTE (page-table entries ， 页 表 条 目 )，759 
PTE tables (PTE #), 759 
Pthreads, 170-172 
scheduling (WE), 217-218 
synchronization in (同步 )，287-288 
thread cancellation in (线程 撤销 )，184-185 
PTLR (page-table length register) (页 表 长 度 寄存 
器 )，370 
public cloud (公共 云 )，41 
public domain (公共 流通 域 )，699 
public keys ( 公 钥 )，662 
public-key encryption ( 公 钥 加 密 )，662 
pull migration ( 拉 迁 移 )，221 
pure code( 纯 代码 )，370 
pure demand paging ( 纯 请 求 调 页 )，396 
push (ÆA), 32 
push migration ( 推 迁 移 )，221 
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Q 


quantum (时 间 片 )，752 
queue (队列 )，109-110 
capacity of (容量 )，127-128 
input (输入 )，348 
message (消息 )，810 
ready (就 绪 )，109-110，353 
queueing diagram (队列 图 )，110 
queueing-network analysis (排队 网 络 分 析 )，242 


R 


race condition (竞争 条 件 )，255 
RAID (redundant arrays of independent disks， 硬 
盘 宛 余 阵 列 )，556-566 
levels of (级 别 )，559-563 
performance improvement (性 能 提高 )，558 
problems with (问题 )，564-566 
reliability improvement (可 靠 性 提高 )，557-558 
structuring (结构 )，557 
RAID array (RAID 阵列 )，557 
RAID levels (RAID 级 别 )，559-563 
RAID sets (RAID 集合 )，779 
RAM (random-access memory， 随 机 访问 内 存 )，9 
random-access devices (随机 访问 设备 )，586，588， 
806 
random-access memory (RAM， 随 机 访问 内 存 )，9 
random-access time (disks) (随机 访问 时 间 ( 硬 
#k)), 540 
rate, of periodic task (速率 ， 周 期 任务 )，226 
rate-monotonic scheduling (单调 速率 调度 )，227- 
228 
rate-monotonic scheduling algorithm (单调 速率 调 
度 算法 )，227-228 
raw disk (原始 硬盘 )，413，501，551 
raw 1/0 (原始 IO)，588 
raw partitions (原始 分 区 )，555 
RBAC (role-based access control， 基 于 角色 访问 
控制 )，625 
RC4，661 
RC 4000 operating system (RC 4000 操作 系统 )， 
809-810 


read-ahead technique (预先 读 取 技术 )，519 
read-end (of pipe) ( 读 出 端 (管道 的 ))，140 
readers (读者 )，270 
read-writer locks (584), 270-272 
readers-writers problem (读者 - 作者 问题 )，270- 
272 
reading files ( 读 文 件 )，458 
read-modify-write cycle( 读 改写 周期 )，561 
read only devices (只 读 设 备 )，587 
read-only memory (ROM， 只 读 内 存 )，91，552 
read queue ( 读 队 列 )，731 
read-write devices ( 读 写 设备 )，587 
ready queue (就 绪 队列 )，109-110，353 
ready state (就 绪 状态 )，105 
ready thread state (Windows 7) (就 绪 线程 状态 )， 
751 
real-time class (实时 类 )，234 
real-time CPU scheduling (实时 CPU 调度 )，223- 
230 
earliest-deadline-first scheduling (最 早 截止 期 限 
调度 )，228-229 
and minimizing latency (与 最 小 化 延迟 )，223- 
225 
POSIX real-time scheduling ( POSIX 实时 调度 )， 
230 
priority-based scheduling (基于 优先 级 调度 )， 
225-227 
proportional share scheduling ( 比例 分 享 调度 )， 
229-230 
rate-monotonic scheduling (单调 速率 调度 )， 
227-228 
real-time embedded systems (实时 嵌入 式 系统 )，43 
real-time operating systems (实时 操作 系统 )，43 
real-time range ( Linux scheduler) (实时 值 范围 
(Linux 调度 程序 ))，710 
real-time systems (实时 系统 )，43 
reconfiguration (重新 配置 )，771 
records (记录 ) 
logical (逻辑 )，465 
master boot ( 主 引 导 )，552 
recovery (恢复 ) 
backup and restore (备份 和 恢复 )，522-523 
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and consistency checking (一 致 性 检查 )，520- 
521 
from deadlock( 死 锁 )，333-334 
by process termination (进程 终止 )，333-334 
by resource preemption (资源 抢占 )，334 
from failure (从 故障 )，484 
of files and directories (文件 与 目录 )，520-523 
Windows 7，777-778 
red-black trees ( 红 - 黑 树 )，35 
Red Hat (发 行 Linux 的 Red Hat)，699 
redirectors ( 重 定向 器 )，784 
redundancy (JUR), I RAID 
redundant arrays of in expensive disks (廉价 硬盘 
TEREZII), JL RAID 
Reed-Solomon codes (Read-Solomon #4), 561-562 
reentrant code (pure code) (可 重 入 代码 ( 纯 代码 ) )， 
370 
reference bits (引用 位 )，410 
reference string (引用 串 )，404 
register (寄存 器 )，62 
base (基地 址 )，346 
limit (界限 地 址 )，346 
memory-address (内 存 地 址 )，349 
page-table base (页 表 基 地 址 )，366 
page-table length (页 表 长 度 )，370 
for page tables (页 表 )，366 
relocation( 重 定位 )，350 
registry (注册 表 )，72，772-773 
relative block number (相对 块 号 )，466 
relative path names (相对 路 径 名 )，474 
relative speed (相对 速度 )，257 
release()operation (操作 release())，460 
reliability (可 靠 性 )，485 
of Windows 7, 744-745 
relocation register ( 重 定位 寄存 器 )，350 
remainder section (HRK), 256 
remote file systems (远程 文件 系统 )，481 
remote login (远程 登录 )，603 
remote operations (远程 操作 )，529 
remote procedure call (RPC， 远 程 过 程 调 用 )， 
783 
removable storage media (移动 存储 介质 ) 


magnetic disks (硬盘 )，539-541 
magnetic tapes (磁带 )，541-542 
rendezvous (交会 )，127 
repair (维修 )，mean time to (平均 时 间 )，557 
replay attacks (重播 攻击 )，642 
replication (复制 )，531，563 
repositioning (in files)( 重 新 定位 (文件 ))，458 
request edge (申请 边 )，315 
request manager (请 求 管理 程序 )，730 
resident attributes ( 常 驻 属性 )，776 
resident monitor ( 常 驻 监督 器 )，803 
resolution (解决 ) 
and page size (页 面 大 小 )，432-433 
resolving links (解决 链接 )，476 
resource allocation ( operating system service) ( 资 
源 分 配 (操作 系统 服务 ))，55 
resource-allocation graph algorithm (资源 分 配 图 算 
法 )，325-326 
resource allocator (资源 分 配器 )，operating system 
as (操作 系统 作为 )，5 
resource preemption (资源 抢占 )，deadlock recovery 
by ( 死 锁 恢复 )，334 
resource-request algorithm (资源 请 求 算法 )，328 
resource sharing (资源 共享 )，163 
resource utilization (资源 使 用 )，5 
response time (响应 时 间 )，20，205-206 
restart area (重启 区 域 )，778 
restore (恢复 ) 
data (数据 )，557 
state (状态 )，112 
resume (恢复 )，789 
reverse engineering (逆向 工程 )，44 
revocation of access rights (访问 权限 的 撤回 )， 
626-627 
rich text format (RTF ， 多 信息 文本 格式 )，678 
right child ( 右 子 节点 )，33 
rights amplification (Hydra) (权限 扩充 )，674- 
675628 
risk assessment (风险 评估 )，674-675 
robustness (健壮 性 )，785 
roles (角色 )，625 
role-based access control ( RBAC， 基 于 角色 的 访 
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问 控制 )，625 

roll out, rollin ( 转 出 ， 转 和信)，352 

ROM (read-only memory， 只 读 内 存 )，91，552 

root partitions ( 根 分 区 )，501 

root uid (Linux)( 根 uid), 737 

rotational latency (disks) (旋转 延 迟 (硬盘 ))， 
540, 545 

round-robin (RR) scheduling algorithm (轮转 调 
EAR), 211-213 

routing protocols (路 由 协议 )，734 

RPC (remote procedure calls， 远 程 过 程 调用 )， 
783 

RR scheduling algorithm (轮转 调度 算法 )，211- 
213 

RTF (rich text format， 多 信息 文本 格式 )，678 

running state (运行 状态 )，105 

running system (运行 系统 )，91 

running thread state (Windows 7 ) (运行 线程 状态 )， 
751 

RW (read-write) format ( 读 写 格式 )，27 


S 


SaaS (Software as a service， 软 件 即 服务 )，42 
safe computing (安全 计算 )，678 
safe sequence (安全 序列 )，324 
safety algorithm (安全 性 算法 )，327-328 
sandbox ( Tripwire file system) ( 沙 箱 ( Tripwire 
文件 系统 ))，678 
SAN (存储 域 网 )， 见 storage-area networks 
SATA buses (SATA 总 线 )，541 
save (保存 )，state (状态 )，112 
scalability (可 伸缩 性 )，164，746 
Scala language (Scala 函数 式 语言 )，291-292 
SCAN (elevator) scheduling algorithm (SCAN ( 电 
梯 ) 调度 算法 )，547-548 

scheduler (调度 程序 )，110-111 

long-term (长 期 )，111 

medium-term (中 期 )，111 

short-term (短期 )，111 
scheduler activation (调度 器 激活 )，185-186 
scheduling (调度 ) 

cooperative (协作 )，204 


CPU， 见 CPU scheduling 
disk scheduling algorithms (硬盘 调度 算法 )， 
544-550 
C-SCAN (循环 扫描 )，548 
FCFS ( 先 到 先 服务 )，545-546 
LOOK (看 )，549 
SCAN (扫描 )，547-548 
selection (选择 )，549-550 
SSTF (最 短 寻 道 时 间 优 先 )，546-547 
earliest-deadline-first (最 早 截 止 期 限 )，228-229 
I/O, 592-593 
job (作业 )，20 
in Linux, 709-714 
kernel synchronization (内 核 同步 )，712-714 
process (进程 )，710-711 
symmetric multiprocessing (对 称 多 处 理 )，714 
multiprocessor (多 处 理 器 )， 见 multiprocessor 
scheduling 
nonpreemptive ( 非 抢占 式 )，204 
preemptive (抢占 式 )，203-204 
priority-based (基于 优先 权 )，225-227 
proportional share (比例 分 享 )，229-230 
rate-monotonic (单调 速率 )，227-228 
SSD and (固态 硬盘 )，541 
thread (线程 )，217-218 
in Windows 7，751-752，788-789 
scheduling rules (调度 规则 )，788 
SCM (service control manager， 服 务 控 制 管理 器 )， 
771 
SCOPE operating system (SCOPE 操作 系统 )，816 
script kiddies (脚本 黑客 )，650 
SCS (system-contention scope， 系 统 竞争 范围 )，217 
SCSI (Small Computer System Interface， 小 型 计 
算 机 系统 接口 )，12 
SCSI buses (SCSI 总线 )，576 
search path (搜索 路 径 )、473 
secondary memory (外 存 )，396 
secondary storage( 外 部 存储 )，10，516， 见 disk 
second-chance page-replacement algorithm ( clock 
algorithm) (第 二 次 机 会 页 面 置换 算法 (时 
钟 算法 ))，410-411 
second extended file system ( ext2fs， 第 二 扩展 文 
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(FRE), 725 
section object (区 段 对 象 )，133 
sectors, disk (HX, WE), 540 
sector slipping (H Xz), 553-554 
sector sparing (HK FH), 553, 780 
secure by default (默认 安全 )，653 
secure single sign-on (安全 单 点 登录 )，483 
secure systems (安全 系统 )，672 
security (安全 )， 见 file access; program threats; 
protection; user authentication 
classifications of (4¢4%), 682-683 
in computer systems (计算 机 系统 )，30-31 
and firewalling (防火 墙 )，680-682 
implementation of (实现 )，673-680 
and accounting ( 记 账 )，680 
and auditing (审计 )，680 
and intrusion detection (人 侵 检测 )，675-678 
and logging (日 志 )，680 
and security policy (安全 策略 )，673-674 
and virus protection (病毒 防护 )，678-680 
and vulnerability assessment (漏洞 评估 )， 
674-675 
levels of (层次 )，643-644 
in Linux, 735-738 
access control (访问 控制 )，736-738 
authentication (认证 )，736 
as operating-system services (作为 操作 系统 服 
务 )，53-56 
as problem (问题 )，641-645 
protection vs. (对 比 保护 )，641 
and system/network threats (系统 /网 络 威胁 )， 
653-658 
denial of service (拒绝 服务 )，657-658 
port scanning (端口 扫描 )，657 
worms (#41), 654-657 
use of cryptography for (密码 术 用 作 )，658-669 
and encryption (加 密 )，658-669 
implementation (实现 )，665-667 
SSL example (SSL 例子 )，667-669 
via user authentication (通过 用 户 认 证 )，669- 
673 
biometrics (生物 识别 技术 )，673 


passwords (密码 )，669-673 
in Windows 7, 683-685, 743-744, 765 
security access tokens ( Windows 7) (安全 访问 令 
牌 )，683 
security context (windows 7 )( 安 全 上 下 文 )，683- 
685 
security descriptor (windows 7) (安全 描述 符 )， 
684 
security domains (安全 域 )，680 
security identity (SID， 安 全 ID)，765 
security policy (安全 策略 )，673-674 
security reference monitor ( SRM， 安 全 引用 监视 
器 )，770 
security-through-obscurity approach (隐藏 式 安全 
方法 )，675 
security tokens (安全 令 牌 )，765 
seek (定位 )，file (文件 )，458 
seek time (disks) ( 寻 道 时 间 (硬盘 )),，540，545 
segmentation (分 段 )，358-360 
basic method (基本 方法 )，358-359 
defined (定义 )，358 
hardware (硬件 )，359-360 
Intel 32 and 64-bit architectures example ( Intel 
32 位 与 64 位 架构 举例 )，377-378 
segment base ( 段 基 地 址 )，360 
segment limit ( 段 界 限 )，360 
segment tables( 段 表 )，360 
semantics (语义 ) 
consistency (一 致 性 )，484 
copy (复制 )，594 
immutable-shared-files (不 可 变 共享 文件 )，485 
session (会 话 )，485 
semaphore (信号 量 )，263-269 
binary (二 进 制 )，264 
counting (计数 )，264 
and deadlocks( 死 锁 )，267 
defined (定义 )，264 
implementation (实现 )，265-267 
implementation of monitors using (采用 …… 实 
PLE FE), 279-280 
and priority inversion (fi 762 /24% ), 267-268 
and starvation (WLR), 267 
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usage of ({# FH), 264-265 
semaphore objects (Windows 7) (信和 号 量 对 象 )， 
753 
semiconductor memory (半导体 内 存 )，11 
sense key (感应 键 )，596 
sequential access (files) (顺序 访问 (文件 ))，465 
sequential-access devices (顺序 访问 设备 )，806 
sequential devices (顺序 设备 )，586，587 
serial ATA (SATA) buses (#347 ATA 总 线 )，541 
servers (服务 器 )，5 
defined (定义 )，680 
in SSL, 667 
server message block (SMB， 服 务 器 消息 块 )，782 
server subject (Windows 7 ) (服务 器 主题 )，684 
Service Control Manager ( SCM， 服 务 控制 管理 
器 )，771 
services，operating-system (服务 ， 操 作 系 统 )， 
53-56, 111 
session hijacking (会 话 劫持 )，643 
session layer, 781 
session manager subsystem ( SMSS ， 会 话 管 理子 
系统 )，773 
session object (会 话 对 象 )，758 
session semantics (会 话语 义 )，485 
session space (会 话 空间 )，758 
sharable devices (共享 设备 )，586，587 
shares (分 享 )，229 
shared files (共享 文件 )，immutable (不 可 变 )，485 
shared libraries (共享 库 )，351-352 
shared lock (共享 锁 )，460 
shared memory (共享 内 存 )，120 
shared-memory model (共享 内 存 模 型 )，71， 
122-124 
sharing (共享 ) 
load (负载 )，218，702 
and paging (分 页 )，360-361 
resource (资源 )，702 
time (时 间 )，20 
shells (外 索 )，56 
shell scripts (外 过 脚本 )，462 
shortest-job-first ( SJF ) scheduling algorithm ( 最 
短 作 业 优先 调度 算法 )，207-210 


shortest-remaining-time-first scheduling (最 短 Æ| 
余 时 间 优 先 调度 )，209 

shortest-seek-time-first (SSTF ) scheduling 
algorithm (最 短 寻 道 时 间 优 先 )，546-547 

short-term scheduler ( CPU scheduler) (短期 调度 
程序 )，111，203 

shoulder surfing (JA #i), 670 

SID (security identity ， 安 全 身份 )，765 

signals (信和 号) 

Linux, 732 
UNIX, 181-183 

signaled state (触发 状态 )，283 

signal handlers (信号 处 理 程序 )，182 

signatures (签名 )，676-677 

signature-based detection (基于 签名 的 检测 )，676 

simple operating system structure (简单 操 作 系 统 
结构 )，76 

simple subject (Windows 7 )( 简 单 主题 )，684 

simulations (仿真 )，242 

single-indirect blocks (一 级 间接 块 )，511 

single-level directories ( 单 级 目录 )，470-471 

single-processor systems ( 单 处 理 器 系统 )，13- 
14，201 

single-threaded processes (单线 程 进程 )，161 

singly linked lists ( 单 向 链表 )，32 

SJF scheduling algorithm (最 短 作 业 优 先 调度 算 
法 )，207-210 

Skype( 对 等 计算 的 例子 )，40 

slab allocation (slab 分 配 )，429-431，716-717 

Slackware (一 种 Linux 发 行 )，699 

slices (划分 )，501 

slim reader-writer (SRW) locks (轻型 读 写 锁 )， 
790 

SLOB allocator (SLOB 分 配器 )，431 

SLUB allocator (SLUB 分 配器 )，431 

small-area networks (小 区 域 网 络 )，37 

small computer-systems interface (小 型 计算 机 系 
统 接口 )， 见 SCSI 

SMB (server message block， 服 务 器 消息 块 )， 
782 

SMP (对 称 多 处 理 )， 见 symmetric multiprocessing 

SMSS (session manager subsystem， 会 话 管理 子 
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系统 )，773 短 寻 道 时 间 优 先 调 度 算法 )，546-547 
snapshots (快照 )，522，563 stable storage (稳定 存储 )，566-568 
sniffing (WHE), 672 stack (HERE), 63, 104 
social engineering (社会 工程 )，644 stack algorithm (堆栈 算法 )，409 
sockets ( 套 接 字 )，134-136 stack frame ( 栈 帧 )，648-649 
socket interface ( 套 接 字 接 口 )，589 stack inspection (堆栈 检测 )，634 
soft affinity( 软 亲 和 性 )，220 stack-overflow attacks( 堆 栈 溢出 攻击 )，647-650 
soft error (软件 错 误 )，551，554 stalling (暂停 )，346 
Software as a service (SaaS ， 软 件 即 服务 )，42 standard swapping (标准 交换 )，352-354 
software capability (软件 能 力 )，629 standby thread state (Windows 7 ) (待机 线程 状态 )， 
software interrupts (traps) ( 软 中 断 )，582 751 
software objects (软件 对 象 )，613 starvation (WLR), JL indefinite blocking 
Solaris, 46 state (of process) (状态 (进程 ))，105 
and processor affinity (处 理 器 亲 和 性 )，220 stateless DFS (无 状态 的 DFS)，484 
scheduling example (调度 举例 )，230-234 state restore( 状 态 恢 复 )，112 
swap-space management in (交换 空间 管理 )， state save (状态 保存 )，112 
554-555 static linking (静态 链接 )，351，723 
synchronization in (同步 )，285-287 static protection (静态 保护 )，614 
virtual memory in (虚拟 内 存 )，339-340 status information (状态 信息 )，72 
solid-state disks (SSD, ， 固 态 硬盘 )，11，28，541， status register (状态 寄存 器 )，578 
568 stealth viruses (隐形 病毒 )，652 
source-code viruses ( 源 代码 病毒 )，733 storage (存储 )，9-12， 见 mass-storage structure 
source files( 源 文件 )，456 definitions and notation (定义 与 符号 )，9 
space maps (空间 表 )，515-516 nonvolatile( 非 易 失 的 )，11-12 
SPARC (SUN 公司 的 处 理 器 )，377 secondary (外 存 )，10，516 
sparseness (Hii), 375, 392 tertiary (5%), 27 
spawn (繁殖 )，654 thread-local (线程 本 地 )，185 
speed (速度 ) utility (实用 )，565 
of operations (1/O devices) (操作 (1/0 设备 ))， volatile (HAM), 11 
541 storage-area networks (SAN， 存 储 域 网 ), 18, 543, 
relative (相对 )，257 544 
spoofed client identification (欺骗 客户 识别 )，482 storage array (存储 阵列 )，557 
spoofing (欺骗 )，681 storage management (存储 管理 )，26-30 
spool ( 假 脱 机 )，595 caching (缓存 )，27-29 
spooling ( 假 脱 机 )，595，806-807 IO systems (IO 系统 )，29-30 
spyware (间谍 软件 )，646 mass-storage management (大 容量 存储 管理 )， 
SRM (security reference monitor) (安全 引用 监视 27 
器 )，770 stored program computers (存储 程序 计算 机 )，800 
SRW (slim reader-writer) locks (轻型 读 写 锁 )，790 stream ciphers( 流 加 密 )，661 
SSD (固态 硬盘 )， 见 solid-state disks stream head ( 流 头 )，601 
SSL3.0，667-669 stream modules ( 流 模块 )，601-602 


SSTF(shortest-seek-time)scheduling algorithm( 最 STREAMS mechanism ( 流 机 制 )，601-603 


600 žl 


string, reference ($, 3/FH), 404 
stripe set (条 带 集 )，779 
stubs (存根 )，351 
stub routines (存根 程序 )，783 
subsystems ( 子 系统 )，133 
SunOS (SUN 公司 的 操作 系统 )，46 
superblock (超级 块 )，498 
superblock objects (超级 块 对 象 )，503，723 
superusers (超级 用 户 )，625 
supervisor mode (监视 模式 )， 见 kernel mode 
Surface Computer (微软 的 平板 电脑 )，774 
SuSE (发 行 Linux 的 SuSE)，699 
suspended state ( 挂 起 状态 )，789 
swap map (交换 映射 )，556 
swapper (term) (交换 器 (术语 ))，393 
swapping (交换 )，20，111，352-354，383 
in Linux，718 
on mobile systems (移动 系统 )，352 
paging vs. (比较 分 页 )，360-361 
standard (标准 )，352-354 
swap space (交换 空间 )，396 
swap-space management (交换 空间 管理 )，554- 
556 
switch architecture (交换 架构 )，12 
switching (切换 ) 
domain ( 域 )，615 
fast user (用 户 切 换 )，774-775 
symbolic links (符号 链接 )，780-781 
symbolic-link objects (符号 链接 对 象 )，780-781 
symmetric clustering (对 称 集 群 )，17 
symmetric encryption (对 称 加 密 )，660-661 
symmetric encryption algorithm (对 称 加 密 算法 )， 
660 
symmetric mode (对 称 模式 )，17 
symmetric multiprocessing ( SMP， 对 称 多 处 理 )， 
15-16, 218, 714 
synchronization ( E] 4%), 127, 
chronization 
synchronous devices (同步 设备 )，586 
synchronous message passing (同步 消息 传递 )， 
128 
synchronous threading (同步 线程 )，170 


见 process syn- 


synchronous writes (同步 写 )，519 
SYSGEN (系统 生成 )，89 
system boot (系统 引导 )，90-91 
system calls ( monitor calls) (系统 调用 )，8，60- 
64 
and API, 61-62 
for communication (通信 )，70-71 
for device management (设备 管理 )，69-70 
for file management (文件 管理 )，69 
functioning of (功能 )，60-64 
for information maintenance (信息 维护 )，70 
for process control (进程 控制 )，64-69 
system-call firewalls (系统 调用 防火 墙 )，682 
system-call interfaces (系统 调用 接口 )，62 
system-contention scope ( SCS， 系 统 竞 争 范围 )， 
217 
system daemons (系统 后 台 程序 )，8 
system disk (系统 盘 )， 见 boot disk 
system files (系统 文件 )，472 
system generation (SYSGEN， 系 统 生 成 )，89-90 
system hive (系统 配置 单元 )，772 
system libraries (Linux) (系统 库 )，702，703 
system mode (系统 模式 )， 见 kernel mode 
system processes (系统 进程 )，8，756-757 
system programs (系统 程序 )，6，72-73 
system resource-allocation graph (系统 资源 分 配 
图 )，315-318 
system restore point (系统 还 原点 )，315-318 
system utilities (系统 工具 )，72-73，701，702 
system-wide open-file table (整个 系统 的 打开 文 
件 表 )，498 


T 


table ( 表 )，375 
file-allocation (文件 分 配 )，509 
hash〈 险 希 )，504-505 
master file ( 主 控 文 件 )，498 
mount (安装 )，498，599 
open-file (打开 文件 )，459 
page (页 )，396，808 
per-process open-file (每 个 进程 的 打开 文件 )， 
499 





routing (路 由 )，734 
segment ( 段 )，360 
system-wide open-file (整个 系统 的 打开 文件 )， 
498 
tags 标签 )，623 
tapes, magnetic ( 带 ， 磁 )，541-542 
target latency ( 目标 延迟 )，711 
target thread (目标 线程 )，183 
task control blocks (任务 控制 块 (进程 控制 块 ) )， 
见 Process control blocks 
task parallelism (任务 并 行 )，166-167 
TCB (trusted computing bases， 可 信 计 算 机 基 )， 
682 
TCP/IP (传输 控制 协议 / 互 连 协议 )， 见 Transmission 
Control Protocol/Internet Protocol 
TCP sockets (TCP 套 接 字 )，135 
TDI (transport driver interface， 传 输 驱 动 程序 接 
口 )，781 
TEB (thread-environment blocks， 线 程 环境 块 )， 
791 
telnet (远程 登录 服务 )，604，653 
terminal applications (终端 应 用 程序 )，94 
terminal concentrators (终端 集中 器 )，604 
terminal server systems (终端 服务 器 系统 )，775 
terminated state (终止 状态 )，751 
terminated thread state (Windows 7 ) (终止 线程 状 
态 ); 751 
termination (终止 ) 
cascading (级 联 )，119 
process (进程 )，118-119，333-334 
tertiary storage devices (三 级 存储 设备 )，27 
text files (文本 文件 )，456 
text section (of process) (文本 段 (进程 ) )，104 
theft of service〈 服 务 盗 窃 )，642 
THE operating system (THE 操作 系统 )，809 
thin clients ( 瘦 客 户 端 )，35 
third extended file system (ext3， 第 三 扩展 文件 
系统 )，725-727 
thrashing (系统 拌 动 )，417-422 
cause of (原因 )，418-419 
defined (定义 )，418 
and page-fault-frequency strategy ( 缺 页 错误 频 


率 策略 )，421-422 
and working-set model (工作 集 模型 )，419-420 
threads (线程 )， 见 multithreading 
cancellation (撤销 )，thread (线程 )，183-184 
components of (组 成 )，161 
functions of (功能 )，161-164 
idle (空闲 )，234 
implicit threading ( 隐 式 线程 )，175-181 
kernel (内 核 )，167 
in Linux，187-189 
and multicore programming (多 核 编程 )，164- 
167 
and process model (进程 模型 )，107 
scheduling of (调度 )，746 
target (目标 )，183 
user (用 户 )，167 
in Windows 7, 186-187, 709, 751-752, 756, 
764-765 
thread attach (线程 连接 )，765 
thread environment blocks (TEB ， 线 程 环境 块 )， 
791 
thread libraries (线程 库 )，169-175 
about，169-170 
Java threads (Java 线程 )，174-175 
Pthreads，170-172 
Windows threads (Windows 线程 )，172-174 
thread-local storage (TLS ， 线 程 本 地 存储 )，185 
thread pools (线程 池 )，177-179，790 
thread scheduling (线程 调度 )，217 
thread-specific data (线程 特定 数据 )，185 
threats (威胁 )，645， 见 program threats 
throughput (吞吐 量 )，205 
thunking (转换 )，746 
tightly coupled systems ( 紧 耦 合 系统 )， 见 
multiprocessor systems 
time (时 ) 
compile (编译 )，348 
effective access (有效 访 问 )，397 
effective memory-access (有 效 内 存 访 问 )，368 
execution (执行 )，349 
of file creation/use (文件 创建 /使 用 )，499 
load (加 载 )，348 
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response (MZ), 20, 205-206 
turnaround (周转 )，205 
waiting (等 待 )，205 
time profile (时 间 曲 线 )，70 
time quantum (时 间 量 )，211 
timers (定时 器 ) 
programmable interval timer (可 编程 间隔 )，589 
variable (可 变 )，24 
timers (定时 器 )，589-590 
timer objects (定时 器 对 象 )，753 
time sharing ( multitasking) (分 时 系统 (多 任务 ) )， 
20, 111 
time slice (时间 片 )，711 
timestamp counters (TSC， 时 间 戳 计数器)，752- 
753 
TLB ( 转 址 旁 路 缓存 )， 见 translation lookaside buffer 
TLB miss (TLB 未 命中 )，367 
TLB reach (TLB 范围 )，433-434 
top half interrupt service routines (上 半 部 中 断 服 
务 程序 )，714 
TOPS-20 (TOPS-20 操作 系统 )，813 
Torvalds，Linus (Linux 内 核 的 发 明 人 )，695 
touch screen(touch screen computing ) ( 触摸 屏 (fih 
摸 屏 计算 ))，5，58 
trace tape (跟踪 磁带 )，243 
tracks, disks, (iÑ, TEA), 540 
traditional computing (传统 计算 )，35-36 
transactions (事务 ) 
atomic (原子 )，260 
defined (定义 )，727 
in Linux, 727-728 
in log-structured file system (基于 日 志 的 文件 
系统 )，521-522 
transactional memory (事务 内 存 )，289-290 
transfer rate (disks)( 传 输 速 率 (硬盘 ))，540，542 
transition thread state (转换 线程 状态 ( Windows 
TD IS 
translation lookaside buffer (TLB， 转 换 表 缓冲 
区 )，367-369，761-762 
Transmission Control Protocol (TCP， 传 输 控 制 
协议 )，782 
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(TCP/IP， 传 输 控制 协议 / 互 连 协 议 )， 
768，782 

transport driver interface (TDI， 传 输 驱 动 程序 接 
O), 781 

transport layer (传输 层 )，781 

transport-layer protocol (TCP， 传 输 层 协议 )，665 

traps (MABE), 395, 582 

trap doors (后 门 )，646 

trees ( 树 )，33 35 

tree-structured directories (43% A a), 473-474 

triple DES (=i DES), 660-661 

triple indirect blocks (三 级 间接 块 指针 )，511 

Tripwire file system (Tripwire 文件 系统 )，679 

Trojan horses (特洛伊 木马 )，645-646 

trusted computing bases (TCB， 可 信 计 算 机 基 )，682 

TSC (timestamp counters， 时 间 惟 计数 器 )，752 

tunneling viruses (隧道 病毒 )，652 

turnaround time (周转 时 间 )，205 

turnstiles (十 字 转 门 )，286 

two-factor authentication ( 双 因 素 认 证 )，672 

two-level directories (二 级 目录 )，471-473 

two tuple (有 序 对 )，359 

type safety (Java) (类 型 安全 )，635 


U 


UAC (User Account Control， 用 户 账户 控制 )，684 

UDP sockets (UDP 套 接 字 )，135 

UFD (user file directory， 用 户 文 件 目 录 )，471 

UFS (Unix file system, UNIX 文件 系统 )，497 

UI (user interface, FAP Ft), 54 

UMA (uniform memory access， 均 匀 内 存 访 问 )， 
16 

UMDF ( User-Mode Driver Framework, fi] P $8 
式 驱 动 程序 框架 )，768 

UMS (用 户 模 式 调度 )， 见 user-mode scheduling 

unbounded capacity (of queue) (无 限 容量 (队列 ))， 
128 

UNC (uniform naming convention， 统 一 命名 约 
定 )，783 

UNICODE (万 国 码 (相对 ASCII)), 749 

unified buffer cache (统一 缓冲 区 缓存 )，518 

unified virtual memory (统一 虚拟 内 存 )，517 


uniform memory access (UMA ， 均 匀 内 存 访 问 )，16 
uniform naming convention ( UNC， 统 一 命名 约 
定 )，783 
universal serial buses (USB， 通 用 串口 总 线 )， 
541 
Unix file system (UFS, UNIX 文件 系统 )，536 
UNIX operating system (UNIX 操作 系统 ) 
consistency semantics for (一 致 性 语义 )，484- 
485 
domain switching in (JRYJ#4), 615, 617, 619 
feature migration with (特征 迁移 )，799，800 
and Linux, 695 
permissions in (权限 )，488 
signals in (fF), 181-183 
swapping in (交换 )，354 
upcalls (回调 )，186 
upcall handler (回调 处 理 程序 )，186 
U.S. Digital Millennium Copyright Act (DMCA, 
美国 千 禧 年 数字 版 权 法 案 )，44 
USB (universal serial buses， 通 用 串口 总 线 )， 
541 
used objects (使 用 对 象 )，430，717 
users (用 户 )，4-5，480-481 
user accounts (用 户 账 户 )，683 
User Account Control (UAC， 用 户 账户 控制 )，684 
user authentication (用 户 认证 )，669-673 
with biometrics (生物 识别 技术 )，673 
with passwords (通过 密码 )，669-673 
user datagram protocol (UDP， 用 户 数 据 报 协 议 )， 
734 
user-defined signal handlers (用 户 定义 信号 人 处理 
程序 )，182 
user file directory (UFD， 用 户 文件 目录 )，471 
user identifiers (user ID， 用 户 ID), 31 
effective (有 效 )，31 
for files (用 于 文件 )，456 
user interface (UI， 用 户 界 面 )，54 
user mobility (用 户 移动 )，525 
user mode (用 户 模式 )，22，701 
User-Mode Driver Framework (UMDF， 用 户 模 
式 驱动 程序 框架 )，768 
user-mode scheduling ( UMS， 用 户 模 式 调度 )， 
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236-237, 747, 791-792 
user-mode threads (UT， 用 户 模式 线程 )，756 
user programs (user tasks) (用 户 程 序 )，103-104， 
721 
user rights (Linux) (用 户 权限 )，736-737 
user threads (用 户 线程 )，167 
UT (user-mode threads， 用 户 模式 线程 )，756 
utilities (效用 )，800 
utility storage (实用 存储 )，565 
utilization (利用 率 )，802 


V 


VACB ( virtual-address control block， 虚 拟 地 址 
控制 块 )，768 

VAD ( virtual address descriptors， 虚 拟 地 址 描述 
符 )，764 

valid-invalid bits (有 效 - 无 效 位 )，369 

variables (变量 ) 

automatic (自动 )，648 
condition (条 件 )，790 

variable class (可 变 类 )，234 

variable timer (可 变 定时 器 )，24 

VAX minicomputer (VAX 小 型 机 )，373-374 

vectored I/O ( [a] 1/0), 591-592 

vector programs (向 量程 序 )，654 

vfork() ( virtual memory fork) ( vfork() (虚拟 内 
##)), 401 

VFS (虚拟 文件 系统 )， 见 virtual file system 

victim frames (牺牲 帧 )，403 

views (视图 )，759 

virtual address (虚拟 地 址 )，350 

virtual-address control block ( VACB， 虚 拟 地 址 
控制 块 )，768 

virtual address descriptors (VAD ， 虚 拟 地址 描述 
符 )，768 

virtual address space (虚拟 地 址 空间 )，390-391， 
719-720 

virtual file system ( VFS， 虚 拟 文件 系统 )，502- 
504, 723-725 

virtualization (虚拟 化 )，40-41 

virtual machine manager(VMM， 虚 拟 机 管理 器 )， 
22, 41, 42, 764, 769 
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virtual memory (虚拟 内 存 )，20-21，390-392 
and copy-on-write technique ( 写 时 复制 技术 )， 
400-401 
demand paging for conserving (需求 分 页 用 于 
保存 )，393-399 
basic mechanism (基本 机 制 )，394-397 
with inverted page tables (倒置 页 表 )，434 
and IO interlock (与 IO 联 锁 )，436-437 
and page size (与 页 面 大 小 )，432-433 
and performance (与 性 能 )，397-399 
and prepaging (与 预 调 页 面 )，431-432 
and program structure (与 程序 结构 )，434-435 
pure demand paging ( 纯 请 求 调 页 )，396 
and restarting instructions (与 重启 指令 )，396 
and TLB reach (455 TLB 范围 )，433-434 
direct virtual-memory access (直接 虚拟 内 存 访 
问 )，584 
and frame allocation ( 帧 分 配 )，413-417 
equal allocation (平均 分 配 )，415 
global vs local allocation (全 局 与 局 部 分 配 )，416 
proportional allocation (比例 分 配 )，415 
and kernel memory allocation (内 核 内 存 分 配 )， 
428-431 
in Linux，718-721 
and memory mapping (内 存 映 射 )，422-428 
basic mechanism (基本 机 制 )，422-424 
I/O, memory-mapped (IO， 内 存 映 射 )，427- 
428 
in Win32 API, 425-427 
page replacement for conserving (保存 页 面 置换 )， 
401-413 
and application performance (应 用 程序 性 能 )， 
413 
basic mechanism (基本 机 制 )，402-405 
counting-based page replacement (基于 计数 的 
页 面 置换 )，412 
FIFO page replacement (FIFO 页 面 置 换 )，405-406 
LRU-approximation page replacement algorithm 
(近似 LRU 页 面 置 换算 法 )，410-412 
LRU page replacement (LRU 页 面 置换 )，408- 
410 
optimal page replacement (最 佳 页 面 置 换 )，406- 


407 
and page-buffering algorithms (页 面 缓冲 算 
法 )，412-413 
separation of logical memory from physical 
memory by (逻辑 内 存 与 物理 内 存 的 分 开 )， 
392 
size of (大 小 )，374 
in Solaris, 438-440 
and thrashing (系统 抖动 )，417-422 
cause (原因 )，418-419 
page-fault-frequency strategy (ik T R RIE 
R), 421-422 
working-set model (工作 集 模 型 )，419-421 
unified (统一 )，517 
in Windows, 437-438 
virtual memory fork (虚拟 内 存 fork)，401 
virtual memory (VM) manager (虚拟 内 存 管理 器 )， 
758-764 
virtual memory regions (虚拟 内 存 区 域 )，719 
virtual private networks (VPN， 虚 拟 专 用 网 )， 
666，782 
virtual routing (虚拟 路 由 )，734-735 
viruses (病毒 )，650-653，678-680 
virus dropper (病毒 滴 管 )，651 
VMM (虚拟 机 管理 器 )， 见 virtual machine manager 
VM manager (VM 管理 器 )，758-764 
VMWare (一 种 虚拟 机 技术 )，41，48 
vnode (虚拟 节点 或 v 节点 )，502 
volatile storage ( 易 失 存储 )，11 
volumes ( 卷 )，468 
volume control block ( 卷 控制 块 )，498 
volume management ( Windows 7 ) CEH), 
779-780 
volume shadow copies ( 卷 影 子 复制 )，781 
volume table of contents ( 卷 目 录 表 )，468 
von Neumann architecture (75 + 诺 依 曼 体系 结构 )，10 
VPN (虚拟 专用 网 )， 见 virtual private networks 
vulnerability scans (AHH) 674, 675 


W 


WAFL file system (WAFL XAFRA), 522, 529- 
532 


waiting state (等 待 状态 )，105 
waiting thread state( Windows 7 )( 等 待 线程 状态 )， 
751 
waiting time (等 待 时 间 )，205 
wait queue (等 待 队列 )，732 
wait() system call (系统 调用 wait())，115-119 
WAN (广域网 )， 见 wide-area networks 
Web distributed authoring and versioning 
(WebDAV， 基 于 万 维 网 的 分 布 式 创作 和 
版 本 控制 )，783 
wide-area networks (WAN， 广 域 网 )，17，37 
WiFi networks (无 线 网 络 )， 见 wireless networks 
Win32 API ( Windows32 位 应 用 程序 编程 接口 )， 
425-427, 742, 786 
Windows operating systems (Windows 操作 系统 )， 
283, 814 
interprocess communication example (进程 间 通 
信 举 例 )，133 
scheduling example (调度 举例 )，234-237 
threads example (线程 举例 )，186-187 
virtual memory in (虚拟 内 存 )，437-438 
Windows 7, 741-797 
application compatibility of (应 用 程序 兼容 性 )， 
745-746 
design principles for (设计 原则 )，743-750 
desktop versions of (桌面 版 本 )，742-743 
dynamic device support (动态 设备 支持 )，749- 
750 
and energy efficiency (与 电源 效率 )，749 
extensibility of (可 扩展 性 )，748 
fast user switching with (快速 用 户 切换 )，774- 
TIS 
file systems (XAFRA), 775-781 
change journal (变更 日 志 )，781 
compression and encryption (压缩 与 加 密 )，780 
mount points (安装 点 )，780-781 
NTFS B+ tree (NTFS B+ 树 )，776-777 
NTFS internal layout (NTFS 内 部 布局 )，775- 
777 
NTFS metadata (NTFS 元 数据 )，777 
recovery (WK), 777-778 
security (24>), 778 
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volume management and fault tolerance ( # 
管理 和 容错 )，779-780 
volume shadow copies ( 卷 影子 复制 )，781 
history of (历史 )，741-743 
networking (KIM), 781-786 
Active Directory (742 A at), 786 
domains (th), 785 
interfaces (接口 )，781 
protocols (HPX), 782-784 
redirectors and servers ( 重 定向 器 与 服务 器 )， 
784-785 
performance of (PERE), 746 
portability of (可 移植 性 )，748-749 
programmer interface (程序 员 接 口 )，786-795 
interprocess communication (进程 间 通 信 )， 
792-793 
kernel object access (内 核对 象 访问 )，786 
memory management (内 存 管理 )，793-795 
process management (进程 管理 )，787-792 
sharing objects between processes (进程 间 共 
享 对 象 )，786-787 
reliability of (可 靠 性 )，744-745 
Security in (安全 )，684，743-744 
synchronization in (同步 )，746，791，792 
system components for (系统 组 件 )，750-774 
executive (执行 体 )， 见 Windows executive 
hardware-abstraction layer( 硬 件 抽象 层 )，750- 
751 
kernel (内 核 )，751-756 
terminal services (终端 服务 )，774-775 
user-mode scheduling in (用 户 模式 调度 )，236 
Windows 2000，744，745，780 
Windows executive (Windows 执行 体 )，756-774 
booting (引导 )，773-774 
cache manager (缓存 管理 器 )，768-770 
client-server computing( 客 户 机 - 服务 器 计算 )， 
765-767 
I/O manager (1/0 管理 器 )，767-768 
object manager (对 象 管理 器 )，756-758 
plug-and-play manager ( 即 插 即 用 管理 器 )，771 
power manager (电源 管理 器 )，771-772 
process manager (进程 管理 器 )，764-765 
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registry (EM), 772-773 
security reference monitor (安全 引用 监控 器 )， 
770 
virtual memory manager (虚拟 内 存 管理 器 )， 
758-764 
Windows group policy (Windows 组 策略 )，786 
Windows NT ( Windows ( New Technology) 操作 
FB), 746-747 ?, 
Windows Task Manager ( Windows 任务 管理 器 )， 
85, 86 
Windows thread library (Windows 线程 库 )，172-174 
Windows Vista, 742 
security in (#4), 684 
symbolic links in (符号 链接 )，780-781 
Windows XP ( Windows 的 一 种 操作 系统 )，745， 
746 
Winsock (Windows 套 接 字 )，792 
wireless (WiFi) networks (无 线 网 络 )，35，644 
Witness (一 种 锁 顺 序 验证 器 )，322 
word (F), 9 
WorkGroup Solutions (工作 组 解决 方案 )，693 
working sets (工作 集 )，419，421，423 
working-set maximum (工作 集 最 大 值 )，438 
working-set minimum (工作 集 最 小 值 )，438 
working-set model (工作 集 模 型 )，419-421 
Workstation (VMWare)( 工 作 站 )，40-41 
workstations (工作 站 )，5 
world rights (Linux) (世界 权限 )，737 


World Wide Web (万 维 网 )，481 

worms (蠕虫 )，654-657 

WORM (write-once，read-many ) format (一 次 
写 多 次 读 格式 )，27 

worst-fit strategy (最 差 适 应 策略 )，356 

write-end (of pipe) ( 写 人 端 (管道 ))，140 

write only devices (只 写 设备 )，587 

write queue( 写 队列 )，601 

writers (作者 )，270 

writing files( 写 文件 )，458 
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x86-64 architecture (x86-64 架构 )，381 

XDR (external data representation) (外 部 数据 表 
mR), 138 

XDS-940 operating system ( XDS-940 操作 系统 )， 
808 

Xerox, 578S 

XML firewalls (XML 防火 墙 )，682 


Z 


zero capacity (of queue) (FRE (队列 ) )，128s 

zero-day attacks ( 零 天 攻击 )，677 

zero-fill-on-demand technique ( 按 需 填 零 技术 )， 
401 

ZFS file system (ZFS 文件 系统 )，515，564-565 

zombie systems (僵尸 系统 )，657 

zones (区 域 )，542,715 
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本 书 是 操作 系统 的 经 典 教材 。 在 这 一 版 中 ，Tanenbaum 教 授 力 邀 来 自 谷歌 和 微软 的 技术 专家 
撰写 关于 Android 和 Windows 8 的 新 章节 ， 此 外 ， 还 添加 了 云 、 虚 拟 化 和 安全 等 新 技术 的 介绍 。 书 
中 处 处 融会 着 作者 对 于 设计 与 实现 操作 系统 的 各 种 技术 的 思考 ， 他 们 的 深刻 洞察 与 清晰 阐释 使 得 本 
书 脱颖而出 且 经 久 不 衰 。 

第 4 版 重要 更 新 
。 新 增 一 章 讨论 虚拟 化 和 云 ， 新 增 一 节 讲解 Android 操 作 系 统 ， 新 增 研究 实例 Windows 8。 此 

外 ， 安 全 方面 还 引入 了 攻击 和 防御 技术 的 新 知识 。 

。 习题 更 加 丰富 和 灵活 ， 这 些 题目 不 仅 能 考查 读者 对 基本 原理 的 理解 ， 提 高 动手 能 力 ， 更 重要 的 

是 启发 思考 ， 在 问题 中 挖掘 操作 系统 的 精髓 。 

。 每 章 的 相关 研究 一 节 全 部 重 写 ， 参 考 文献 收录 了 上 一 版 推出 后 的 233 篇 新 论文 ， 这 些 对 于 在 该 领 

域 进行 深入 探索 的 读者 而 言 非常 有 益 。 
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对 于 操作 系统 这 门 计算 机 专业 必修 课 ， 大 多 数 教材 采用 线性 教学 方法 ， 以 深度 为 导向 孤立 地 介绍 各 
个 模块 ， 最 后 整合 起 来 理解 真正 的 操作 系统 。 而 本 书 采用 的 螺旋 方法 则 以 广度 为 导向 ， 首 先 给 出 一 些 基 
本 概念 ， 然 后 描述 一 个 非常 简单 的 操作 系统 ， 之 后 逐步 将 其 演化 为 拥有 更 多 功能 的 复杂 系统 。 
相 比 之 下 ,螺旋 方法 有 利于 学 生 在 课程 初期 自然 形成 对 操作 系统 各 模块 的 认识 与 理解 ， 同 时 不 断 积累 信 
心 来 处 理 更 为 复杂 的 问题 ， 循 序 渐进 ， 从 而 更 透彻 地 理解 操作 系统 的 本 质 。 
本 书 特 色 
， 在 讨论 不 同 的 操作 系统 时 ， 会 还 原 到 其 所 在 的 历史 背景 中 ， 介 绍 当时 的 行业 状况 、 重 要 企业 和 个 
人 ， 便 于 学 生 更 好 地 理解 操作 系统 的 发 展 和 演进 。 
”涵盖 各 类 便携 式 设备 上 的 现代 操作 系统 ， 而 不 限于 计算 机 操作 系统 。 
， 每 章 都 配 有 习题 ， 许 多 章节 还 配 有 实验 ， 帮 助 学 生 巩固 所 学 知识 ， 在 实践 中 强化 理解 。 
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